Flink中的状态一致性

芋辕-

已于 2022-05-02 22:59:55 修改

阅读量862

点赞数 1

分类专栏： Flink 文章标签： flink 大数据 big data

于 2022-05-02 22:56:22 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41655296/article/details/124548297

版权

Flink 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

目录

1 状态一致性的分级

2 端到端状态一致性

3 Flink内部如何保持一致性---checkpoint检查点

3.1 Flink的检查点算法

3.2 Barrier对齐

3.3 Barrier不对齐

1 状态一致性的分级

at most once :故障发生之后，计数结果可能丢失

at least once :表示计数结果可能大于正确值，但绝不会小于正确值。也就是说，计数程序在发生故障后可能多算，但是绝不会少算。

exactly once : 这指的是系统保证在发生故障后得到的计数结果与正确值一致。

2 端到端状态一致性

端到端的一致性保证，意味着结果的正确性贯穿了整个流处理应用的始终；每一个组件都保证了它自己的一致性，整个端到端的一致性级别取决于所有组件中一致性最弱的组件。

具体可以划分如下：

source端 —— 需要外部源可重设数据的读取位置
flink内部 —— 依赖checkpoint
sink端 —— 需要保证从故障恢复时，数据不会重复写入外部系统

而对于sink端，又有两种具体的实现方式：幂等（Idempotent）写入和事务性（Transactional）写入。

3 Flink内部如何保持一致性---checkpoint检查点

3.1 Flink的检查点算法

异步分界线快照算法（之所以是异步是因为处理数据与checkpoint的生成是异步的无需，无需牺牲过多的性能）

过程：

1）生成一个检查点分界线（barrier）在source之前，随着数据流的传递性往下传递；

2）每个算子，在接受到barrier的时候，会触发快照操作（保存快照状态）

3）每个Task，在完成快照操作后，会通知JobManager

4) 当所有的Task完成快照操作后，JobManger会通知：ck检查点备份完成，实现数据的两次提交操作。

3.2 Barrier对齐

1）假设source算子的并行度为2 ，map算子的并行度的为1

2）map算子先接受到source1数据流对应的barrier，此时停止处理source1后续的数据，放在数据缓冲区种

3）当map算子接受到source2数据流对应的barrier(即所有的barrier)，此时会触发map的状态备份。

4）备份完成后，处理缓冲区中的数据，之后继续往下流。

3.3 Barrier不对齐

上述第（2）步不会停止对source1后续数据的处理，因此会造成at least once的现象

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Flink中的状态一致性

1 状态一致性的分级at most once :故障发生之后，计数结果可能丢失at least once :表示计数结果可能大于正确值，但绝不会小于正确值。也就是说，计数程序在发生故障后可能多算，但是绝不会少算。exactly once :这指的是系统保证在发生故障后得到的计数结果与正确值一致。2 端到端状态一致性端到端的一致性保证，意味着结果的正确性贯穿了整个流处理应用的始终；每一个组件都保证了它自己的一致性，整个端到端的一致性级别取决于所有组件中一致性最弱的组件。具体可以划分如.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。