前面我们已经了解过flink的状态,对于这些状态如何保存,我们一起学习一下flink的checkpoint机制,并了解一下rocksdb中的增量checkpoint是怎么实现的。
Checkpoint实现原理
Flink提供的checkpoint机制可以在流任务发生故障时,任务恢复之后,state只被处理一次 exactly once ,当然也可选为 at least once。checkpoint原理就是连续绘制分布式的快照,而且非常轻量级,可以连续绘制,并且不会对性能产生太大影响。默认情况下,checkpoint是关闭的。
Barriers
flink 分布式快照的核心元素是 stream barriers,这些barriers被注入到流中,并作为流的一部分,随着流流动。barriers将数据流的记录分为进入当前快照的记录和进入下一个快照的记录,每个barriers都携带了快照的ID,快照的数据在barriers的前面推送。barriers非常轻量级,不会中断流的流动。同一时间,会有多个checkpoint在并发进行。
barrier被注入到并行流的数据源,注入快照n (称为Sn)的barriers 是数据源中个一个位置,在kafka 就是某个分区的最后一条记录的offset。这个位置Sn后续会汇报给JM的checkpoint coordinator(协调checkpoint功能)。
barrier随着流向下游流动,