Flink
文章平均质量分 74
flink官网的一线资料,均由作者自己本地测试、翻译而来。内容真实,通俗易懂。
Dennis985
这个作者很懒,什么都没留下…
展开
-
Flink 累加器Accumulator
Flink 累加器Accumulator1.概述累加器是具有加法运算和最终累加结果的一种简单结构,可在作业结束后使用。最简单的累加器就是计数器: 你可以使用 Accumulator.add(V value) 方法将其递增。在作业结束时,Flink 会汇总(合并)所有部分的结果并将其发送给客户端。Flink 目前有如下内置累加器。都实现了累加器接口。IntCounter, LongCounter 和 DoubleCounter : 有关使用计数器的示例,请参见下文。直方图 : 离散数量的柱状直方原创 2022-04-27 20:34:25 · 1347 阅读 · 0 评论 -
Flink On Yarn提交方式
Flink On Yarn提交方式1.前言Flink On Yarn(1.13版本)官网链接:https://nightlies.apache.org/flink/flink-docs-release-1.13/zh/docs/deployment/resource-providers/yarn/与其网上各说纷纭,还不如看官网,下面所有的言论都出自该页面。2.环境准备确认是否有yarn环境#运行如下命令,不报错就表示yarn环境OK。yarn top确认是否有HADOOP_CLAS原创 2022-04-27 20:24:45 · 1661 阅读 · 0 评论 -
Flink重启策略
Flink重启策略1.Fix Delay Restart Strategy固定延时重启策略按照给定的次数尝试重启作业。 如果尝试超过了给定的最大次数,作业将最终失败。 在连续的两次重启尝试之间,重启策略等待一段固定长度的时间。通过在 flink-conf.yaml 中设置如下配置参数,默认启用此策略。restart-strategy: fixed-delayKeyDefaultTypeDescriptionrestart-strategy.fixed-delay.atte原创 2022-04-27 20:29:55 · 853 阅读 · 0 评论 -
Flink 异步IO
Flink 异步I/O1.概述在与外部系统交互(用数据库中的数据扩充流数据)的时候,需要考虑与外部系统的通信延迟对整个流处理应用的影响。简单地访问外部数据库的数据,比如使用 MapFunction,通常意味着同步交互: MapFunction 向数据库发送一个请求然后一直等待,直到收到响应。在许多情况下,等待占据了函数运行的大部分时间。与数据库异步交互是指一个并行函数实例可以并发地处理多个请求和接收多个响应。这样,函数在等待的时间可以发送其他请求和接收其他响应。至少等待的时间可以被多个请求摊分。大多原创 2022-04-27 20:35:09 · 1669 阅读 · 0 评论 -
Flink 性能调优
Flink 性能调优SQL 是数据分析中使用最广泛的语言。Flink Table API 和 SQL 使用户能够以更少的时间和精力定义高效的流分析应用程序。此外,Flink Table API 和 SQL 是高效优化过的,它集成了许多查询优化和算子优化。但并不是所有的优化都是默认开启的,因此对于某些工作负载,可以通过打开某些选项来提高性能。1.MiniBatch 聚合默认情况下,无界聚合算子是逐条处理输入的记录,即:(1)从状态中读取累加器,(2)累加/撤回记录至累加器,(3)将累加器写回状态,(4)原创 2022-04-27 20:36:54 · 540 阅读 · 0 评论 -
Flink并行度及设置
Flink并行度及设置1.概述一个 Flink 程序由多个任务 task 组成(转换/算子、数据源和数据接收器)。一个 task 包括多个并行执行的实例,且每一个实例都处理 task 输入数据的一个子集。一个 task 的并行实例数被称为该 task 的 并行度 (parallelism)。2.设置算子层次单个算子、数据源和数据接收器的并行度可以通过调用 setParallelism()方法来指定。如下所示:final StreamExecutionEnvironment env = Str原创 2022-04-27 20:30:28 · 4673 阅读 · 0 评论 -
Flink重启策略
Flink重启策略1.Fix Delay Restart Strategy固定延时重启策略按照给定的次数尝试重启作业。 如果尝试超过了给定的最大次数,作业将最终失败。 在连续的两次重启尝试之间,重启策略等待一段固定长度的时间。通过在 flink-conf.yaml 中设置如下配置参数,默认启用此策略。restart-strategy: fixed-delayKeyDefaultTypeDescriptionrestart-strategy.fixed-delay.atte原创 2022-04-27 20:28:43 · 496 阅读 · 0 评论 -
Flink SQL客户端
Flink SQL客户端1.概述Flink 的 Table & SQL API 可以处理 SQL 语言编写的查询语句,但是这些查询需要嵌入用 Java 或 Scala 编写的表程序中。此外,这些程序在提交到集群前需要用构建工具打包。这或多或少限制了 Java/Scala 程序员对 Flink 的使用。SQL 客户端 的目的是提供一种简单的方式来编写、调试和提交表程序到 Flink 集群上,而无需写一行 Java 或 Scala 代码。SQL 客户端命令行界面(CLI) 能够在命令行中检索和可视原创 2022-04-27 20:27:29 · 2907 阅读 · 0 评论 -
广播变量&分布式缓存
广播变量&分布式缓存1.广播变量我们知道Flink是并行的,计算过程可能不在一个 Slot 中进行,那么有一种情况即:当我们需要访问同一份数据。那么Flink中的广播变量就是为了解决这种情况。我们可以把广播变量理解为是一个公共的共享变量,我们可以把一个dataset 数据集广播出去,然后不同的task在节点上都能够获取到,这个数据在每个节点上只会存在一份。看看官网的说法官网关于广播变量的使用如下:// 1. The DataSet to be broadcastDataSet原创 2022-04-27 20:32:46 · 548 阅读 · 0 评论 -
Flink Checkpoint机制
来源Flink官网原创 2022-04-27 20:23:05 · 736 阅读 · 0 评论