十六、Flink进阶--Flink checkpoint实现原理

最新推荐文章于 2024-07-24 16:31:12 发布

灰二和杉菜

最新推荐文章于 2024-07-24 16:31:12 发布

阅读量5.2k

点赞数 2

分类专栏： Apache Flink 文章标签： Flink checkpoint 原理

本文链接：https://blog.csdn.net/qq475781638/article/details/90737226

版权

本文探讨了Flink的checkpoint实现原理，包括Barriers的概念，它们如何在数据流中分隔记录并携带快照ID。当所有operator收到checkpoint barrier并完成状态快照后，状态会被保存到state backend。在多输入流情况下，barrier对齐确保exactly-once语义。此外，介绍了RocksDB如何通过增量checkpoint来高效保存状态。

摘要由CSDN通过智能技术生成

前面我们已经了解过flink的状态，对于这些状态如何保存，我们一起学习一下flink的checkpoint机制，并了解一下rocksdb中的增量checkpoint是怎么实现的。

Checkpoint实现原理

Flink提供的checkpoint机制可以在流任务发生故障时，任务恢复之后，state只被处理一次 exactly once ，当然也可选为 at least once。checkpoint原理就是连续绘制分布式的快照，而且非常轻量级，可以连续绘制，并且不会对性能产生太大影响。默认情况下,checkpoint是关闭的。

Barriers

flink 分布式快照的核心元素是 stream barriers,这些barriers被注入到流中，并作为流的一部分，随着流流动。barriers将数据流的记录分为进入当前快照的记录和进入下一个快照的记录，每个barriers都携带了快照的ID，快照的数据在barriers的前面推送。barriers非常轻量级，不会中断流的流动。同一时间，会有多个checkpoint在并发进行。
在这里插入图片描述
barrier被注入到并行流的数据源，注入快照n (称为Sn)的barriers 是数据源中个一个位置，在kafka 就是某个分区的最后一条记录的offset。这个位置Sn后续会汇报给JM的checkpoint coordinator（协调checkpoint功能）。
barrier随着流向下游流动，