flink
文章平均质量分 76
bigdata_wangzhe
这个作者很懒,什么都没留下…
展开
-
Flink on yarn两种模式
Flink提供了两种在yarn上运行的模式,分别为Session-Cluster和Per-Job-Cluster模式。Session-cluster 模式:Session-Cluster模式需要先启动集群,然后再提交作业,接着会向yarn申请一块空间后,资源永远保持不变。如果资源满了,下一个作业就无法提交,只能等到yarn中的其中一个作业执行完成后,释放了资源,下个作业才会正常提交。所有作业共享Dispatcher和ResourceManager;共享资源;适合规模小执行时间短的作业。在yarn中原创 2021-04-18 13:13:12 · 201 阅读 · 0 评论 -
Flink与Spark Streaming区别
Flink 是标准的实时处理引擎,基于事件驱动。而 Spark Streaming 是微批(Micro-Batch)的模型。主要包括如下区别:架构模型Spark Streaming 在运行时的主要角色包括:Master、Worker、Driver、Executor,Flink 在运行时主要包含:Jobmanager、Taskmanager和Slot。任务调度Spark Streaming 连续不断的生成微小的数据批次,构建有向无环图DAG,Spark Streaming 会依次创建 DStreamG原创 2021-04-05 21:27:58 · 710 阅读 · 1 评论 -
实时计算之Flink CDC
什么是CDCCDC是Change Data Capture(变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据或数据表的插入、更新以及删除等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。CDC的种类CDC主要分为基于查询和基于Binlog两种方式,我们主要了解一下这两种之间的区别:基于查询的CDC基于Binlog的CDC开源产品Sqoop、Kafka JDBC SourceCanal、Maxwell、Debezium原创 2021-03-26 22:29:23 · 1229 阅读 · 1 评论 -
Flink的状态一致性
什么是状态一致性有状态的流处理,内部每个算子任务都可以有自己的状态对于流处理器内部来说,所谓的状态一致性,其实就是我们所说的计算结果要保证准确。一条数据不应该丢失,也不应该重复计算在遇到故障时可以恢复状态,恢复以后的重新计算,结果应该也是完全正确的。状态一致性分类AT-MOST-ONCE(最多一次)当任务故障时,最简单的做法是什么都不干,既不恢复丢失的状态,也不重播丢失的数据。At-most-once 语义的含义是最多处理一次事件。AT-LEAST-ONCE(至少一次)在大多数的真原创 2021-03-17 22:27:07 · 88 阅读 · 0 评论 -
Flink的Table API和Flink SQL
基本程序结构Table API 和 SQL 的程序结构,与流式处理的程序结构十分类似val tableEnv=。。。 // 创建表的执行环境// 创建一张表,用于读取数据tableEnv.connect(...).createTemporaryTable("inputTable") // 注册一张表,用于把计算结果输出tableEnv.connect(...).createTemporaryTable("outputTable")// 通过 Table API 查询算子,得到一张结果表val原创 2021-03-15 23:03:52 · 396 阅读 · 0 评论 -
Flink CEP
什么是 CEP复杂事件处理(Complex Event Processing,CEP)Flink CEP是在 Flink 中实现的复杂事件处理(CEP)库CEP 允许在无休止的事件流中检测事件模式,让我们有机会掌握数据中重要的部分一个或多个由简单事件构成的事件流通过一定的规则匹配,然后输出用户想得到的数据 —— 满足规则的复杂事件CEP 的特点目标:从有序的简单事件流中发现一些高阶特征输入:一个或多个由简单事件构成的事件流处理:识别简单事件之间的内在联系,多个符合一定规则的简单事件构原创 2021-03-14 22:30:03 · 250 阅读 · 0 评论 -
Flink容错机制
一致性检查点(Checkpoints)Flink 故障恢复机制的核心,就是应用状态的一致性检查点有状态流应用的一致检查点,其实就是所有任务的状态,在某个时间点的一份拷贝(一份快照);这个时间点,应该是所有任务都恰好处理完一个相同的输入数据的时候从检查点恢复状态在执行流应用程序期间,Flink 会定期保存状态的一致检查点如果发生故障, Flink 将会使用最近的检查点来一致恢复应用程序的状态,并重新启动处理流程从检查点恢复状态遇到故障之后,第一步就是重启应用第二步是从 chec原创 2021-03-12 22:35:54 · 104 阅读 · 0 评论 -
Flink状态管理
Flink 中的状态由一个任务维护,并且用来计算某个结果的所有数据,都属于这个任务的状态可以认为状态就是一个本地变量,可以被任务的业务逻辑访问Flink 会进行状态管理,包括状态一致性、故障处理以及高效存储和访问,以便开发人员可以专注于应用程序的逻辑Flink 中的状态在 Flink 中,状态始终与特定算子相关联为了使运行时的 Flink 了解算子的状态,算子需要预先注册其状态总的说来,有两种类型的状态:算子状态(Operator State)算子状态的作用范围限定为算子任务键控原创 2021-03-11 22:25:40 · 94 阅读 · 0 评论 -
Flink的时间语义和watermark
时间(Time)语义Event Time:事件创建的时间Ingestion Time:数据进入Flink的时间Processing Time:执行操作算子的本地系统时间,与机器相关在代码中设置 Event Time我们可以直接在代码中,对执行环境调用 setStreamTimeCharacteristic 方法,设置流的时间特性具体的时间,还需要从数据中提取时间戳(timestamp)乱序数据的影响当 Flink 以 Event Time 模式处理数据流时,它会根据数据里的时间戳原创 2021-03-10 22:59:39 · 103 阅读 · 0 评论