Flink流式框架的容错机制

最新推荐文章于 2024-01-08 16:48:59 发布

Running-小猛

最新推荐文章于 2024-01-08 16:48:59 发布

阅读量200

点赞数

分类专栏： Flink学习文章标签：大数据 flink

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/leying521/article/details/106822770

版权

Flink学习专栏收录该内容

9 篇文章 2 订阅

订阅专栏

一、一致性检查点（checkpoint）

1）Flink故障恢复机制的核心，就是应用状态的一致性检查点；

2）有状态流应用的一致检查点，其实就是所有任务的状态，在某个时间点的一份拷贝（一份快照）；这个时间点，应该是所有任务都恰好处理完一个相同的输入数据的时候；

二、从检查点恢复状态

1）在执行流应用程序期间，Flink会定期保存状态的一致检查点；

2）如果发生故障，Flink将会使用最近的检查点来一致恢复应用程序的状态，并重新启动处理流程；

1、从检查点恢复状态

1）遇到故障之后，第一步就是重启应用；

2）第二步是从checkpoint中读取状态，将状态重置；

3）从检查点重新启动应用程序之后，其内部状态与检查点完成时的状态完全相同；

4）第三步：开始消费并处理检查点到发生故障之间的所有数据；

5）这种检查点的保存和恢复机制可以为应用程序状态提供“精确一次”（exactly-once）的一致性，因为所有算子都会保存检查点并恢复其所有状态，这样一来所有的输入流就都会被重置到检查点完成时的位置；

2、检查点的实现算法

1）一种简单的想法：

—— 暂停应用，保存状态到检查点，再重新恢复应用；

2）Flink的改进实现

—— 基于Chandy-Lamport算法的分布式快照

—— 将检查点的保存和数据处理分离开，不暂停整个应用

三、Flink检查点算法

1、检查点分界线（Checkpoint Barrier）

1）Flink的检查点算法用到了一种称为分界线（barrier）的特殊数据形式，用来把一条流上数据按照不同的检查点分开；

2）分界线之前到来的数据导致的状态更改，都会被包含在当前分界线所属的检查点中；而基于分界线之后的数据导致的所有更改，就会被包含在之后的检查点；

3）现在是一个有两个输入流的应用程序，用并行的两个Source任务来读取；

4）JobManager会向每个source任务发送一条带有新检查点ID的消息，通过这种方式来启动检查点；

5）数据源将它们的状态写入检查点，并发出一个检查点barrier；

6）状态后端在状态存入检查点之后，会返回通知给source任务，source任务就会向JobManager确认检查点完成；

7）分界线对齐：barrier向下游传递，sum任务会等待所有输入分区的barrier到达；

8）对于barrier已经到达的分区，继续到达的数据会被缓存；

9）而barrier尚未到达的分区，数据会被正常处理；

10）当收到所有输入分区的barrier时，任务就将其状态保存到状态后端的检查点中，然后将barrier继续向下游转发；

11）向下游转发检查点barrier后，任务继续正常的数据处理；

12）Sink任务向JobManager确认状态保存到checkpoint完毕；

13）当所有任务都确认已成功将状态保存到检查点时，检查点就真正完成了；

四、保存点（save points）

1）Flink还提供了可以自定义的镜像保存功能，就是保存点（savepoints）

2）原则上，创建保存点使用的算法与检查点完全相同，因此保存点可以认为就是具有一些额外元数据的检查点；

3）Flink不会自动创建保存点，因此用户（或者外部调度程序）必须明确地触发创建操作；

4）保存点是一个强大的功能，除了故障恢复外，保存点可以用于：有计划的手动备份，更新应用程序，版本迁移，暂停和重启应用等等；

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。