Flink -- 容错机制理解

Facouse

于 2022-03-06 21:11:25 发布

阅读量115

点赞数

分类专栏： Flink大数据框架文章标签： flink kafka big data

本文链接：https://blog.csdn.net/MLwodejia/article/details/123317265

版权

Flink大数据框架专栏收录该内容

11 篇文章 2 订阅

订阅专栏

Flink 的容错机制

一致性检查点
从检查点恢复状态
Flink检查点算法
保存点（save points）

一致性检查点

Flink 故障恢复机制的核心，就是应用状态的一致性检查点
有状态流应用的一致检查点，其实就是所有任务的状态，在某个时间点的一份拷贝（一份快照）；这个时间点，应该是所有任务都恰好处理完一个相同的输入数据的时候

从检查点恢复状态

从检查点恢复

在执行流应用程序期间，Flink 会定期保存状态的一致检查点
如果发生故障， Flink 将会使用最近的检查点来一致恢复应用程序的状态，并重新启动处理流程

遇到故障后第一步就是重启应用

第二步是从 checkpoint 中读取状态，将状态重置从检查点重新启动应用程序后，其内部状态与检查点完成时的状态完全相同

第三步：开始消费并处理检查点到发生故障之间的所有数据。这种检查点的保存和恢复机制可以为应用程序状态提供“精确一次”（exactly-once）的一致性，因为所有算子都会保存检查点并恢复其所有状态，这样一来所有的输入流就都会被重置到检查点完成时的位置

Flink检查点算法

Flink 的检查点算法用到了一种称为分界线（barrier）的特殊数据形式，用来把一条流上数据按照不同的检查点分开
分界线之前到来的数据导致的状态更改，都会被包含在当前分界线所属的检查点中；而基于分界线之后的数据导致的所有更改，就会被包含在之后的检查点中

现在是一个有两个输入流的应用程序，用并行的两个 Source 任务来读取

JobManager 会向每个 source 任务发送一条带有新检查点 ID 的消息，通过这种方式来启动检查点

检查点算法
数据源将它们的状态写入检查点，并发出一个检查点 barrier。
状态后端在状态存入检查点之后，会返回通知给 source 任务，source 任务就会向 JobManager 确认检查点完成。

分界线对齐：barrier 向下游传递，sum 任务会等待所有输入分区的 barrier 到达
对于barrier已经到达的分区，继续到达的数据会被缓存
而barrier尚未到达的分区，数据会被正常处理

检查点算法
当收到所有输入分区的 barrier 时，任务就将其状态保存到状态后端的检查点中，然后将 barrier 继续向下游转发

向下游转发检查点 barrier 后，任务继续正常的数据处理

Sink 任务向 JobManager 确认状态保存到 checkpoint 完毕，当所有任务都确认已成功将状态保存到检查点时，检查点就真正完成了

保存点（save points）

Flink 还提供了可以自定义的镜像保存功能，就是保存点（savepoints）
原则上，创建保存点使用的算法与检查点完全相同，因此保存点可以认为就是具有一些额外元数据的检查点
Flink不会自动创建保存点，因此用户（或者外部调度程序）必须明确地触发创建操作
保存点是一个强大的功能。除了故障恢复外，保存点可以用于：有计划的手动备份，更新应用程序，版本迁移，暂停和重启应用，等等

Facouse

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Flink -- 容错机制理解

Flink 的容错机制一致性检查点从检查点恢复状态Flink检查点算法保存点（save points）一致性检查点Flink 故障恢复机制的核心，就是应用状态的一致性检查点有状态流应用的一致检查点，其实就是所有任务的状态，在某个时间点的一份拷贝（一份快照）；这个时间点，应该是所有任务都恰好处理完一个相同的输入数据的时候从检查点恢复状态在执行流应用程序期间，Flink 会定期保存状态的一致检查点如果发生故障， Flink 将会使用最近的检查点来一致恢复应用程序的状态，并重新启动处理流程
复制链接

扫一扫

专栏目录