Flink Checkpoint 详解

阳呀么阳阳阳

已于 2022-04-08 16:10:06 修改

阅读量8.3k

点赞数 6

分类专栏：阳阳阳在学大数据文章标签： Flink Checkpoint

于 2022-04-08 15:16:44 首次发布

本文链接：https://blog.csdn.net/qq_32038679/article/details/121540653

版权

Flink Checkpoint 详解

一、checkpoint简介

Checkpoint是Flink实现容错机制最核心的功能，是Flink可靠性的基石，它能够根据配置周期性地基于Stream中各个Operator的状态来生成Snapshot快照，从而将这些状态数据定期持久化存储下来，当Flink程序一旦意外崩溃时，重新运行程序时可以有选择地从这些Snapshot进行恢复，从而修正因为故障带来的程序数据状态中断。

二、checkpoint原理

1. Checkpoint Barrier

Barrier是Flink分布式快照的核心概念之一，称之为屏障或者数据栅栏（可以理解为快照的分界线）。Barrier是一种特殊的内部消息，在进行Checkpoint的时候Flink会在数据流源头处周期性地注入Barrier，这些Barrier会作为数据流的一部分，一起流向下游节点并且不影响正常的数据流。Barrier的作用是将无界数据流从时间上切分成多个窗口，每个窗口对应一系列连续的快照中的一个，每个Barrier都带有一个快照ID，一个Barrier生成之后，在这之前的数据都进入此快照，在这之后的数据则进入下一个快照。

单并发：如图所示，当ID为n的Checkpoint Barrier到达每个算子后，表示要对n-1和n之间状态的更新做快照。
在这里插入图片描述

多并发：如图所示，每一个入流都会有barrier传过来，这里就会涉及到一个对齐的概念（详细介绍如下），如果没有对齐的话，当flink任务失败重启的话，则会重复消费barrier到达差之间的数据。
数据对齐：先到的入流后续的数据会先存到缓存里等待其他流的barrier到，等做完checkpoint并将barrier下发之后再正常的向下发送数据，步骤如下
第一步：算子子任务在某个输入通道中收到第一个ID为n的Checkpoint Barrier，但是其他输入通道中ID为n的Checkpoint Barrier还未到达，该算子子任务开始准备进行对齐。
第二步：算子子任务将第一个输入通道的数据缓存下来，同时继续处理其他输入通道的数据，这个过程被称为对齐。
第三步：第二个输入通道的Checkpoint Barrier抵达该算子子任务，该算子子任务执行快照，将状态写入State Backend，然后将ID为n的Checkpoint Barrier向下游所有输出通道广播。
第四步：对于这个算子子任务，快照执行结束，继续处理各个通道中新流入数据，包括刚才缓存起来的数据。
在这里插入图片描述

2. checkpoint整体步骤

首先，Flink的检查点协调器（Checkpoint Coordinator）触发一次Checkpoint（Trigger Checkpoint），这个请求会发送给Source的各个子任务。
各Source算子子任务接收到这个Checkpoint请求之后，会将自己的状态写入到状态后端，生成一次快照，并且会向下游广播Checkpoint Barrier。
Source算子做完快照后，还会