深入理解Flink --- End-to-End(端到端) Exactly-Once语义（两阶段提交）

最新推荐文章于 2024-03-08 20:55:07 发布

雾岛与鲸

最新推荐文章于 2024-03-08 20:55:07 发布

阅读量476

点赞数

分类专栏： flink 文章标签： flink 大数据

原文链接：https://blog.csdn.net/hellojoy/article/details/100727409

版权

flink 专栏收录该内容

31 篇文章 5 订阅

订阅专栏

Flink内部的Exactly-Once语义是基于Asynchronous Barrier Snapshotting(ABS)实现的.

那么Flink和外部系统(如Kafka)之间的消息传递如何做到exactly once呢?

问题所在:

flink
如上图，当sink A已经往Kafka写入了数据，而sink B fail。
根据Flink的exactly once保证，系统会回滚到最近的checkpoint，但是sink A已经把数据写入到kafka了。
Flink无法回滚kafka的state，因此，kafka将在之后再次接收到一份同样的来自sink A的数据，这样的message delivery便成为了at least once。

解决方案: Two phase commit

Flink采用Two phase commit来解决这个问题。

Phase 1: Pre-commit
Flink的JobManager向source注入checkpoint barrier以开启这次snapshot，
barrier从source流向sink，
每个进行snapshot的算子成功snapshot后，都会向JobManager发送ACK，
当sink完成snapshot后，向JobManager发送ACK的同时向kafka进行pre-commit。

Phase 2: Commit
当JobManager接收到所有算子的ACK后，就会通知所有的算子这次checkpoint已经完成。
Sink接收到这个通知后, 就向kafka进行commit，正式把数据写入到kafka

不同阶段fail over的recovery举措 :

1、在pre-commit前fail over，系统恢复到最近的checkponit
2、在pre-commit后，commit前fail over，系统恢复到刚完成pre-commit时的状态

Flink的two phase commit实现 — 抽象类TwoPhaseCommitSinkFunction

TwoPhaseCommitSinkFunction有4个方法 :

beginTransaction()
　开启事务.创建一个临时文件.后续把原要写入到外部系统的数据写入到这个临时文件
preCommit()
　flush并close这个文件,之后便不再往其中写数据.同时开启一个新的事务供下个checkponit使用
commit()
把pre-committed的临时文件移动到指定目录
abort()
　删除掉pre-committed的临时文件

雾岛与鲸

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
深入理解Flink --- End-to-End(端到端) Exactly-Once语义（两阶段提交）

Flink内部的Exactly-Once语义是基于Asynchronous Barrier Snapshotting(ABS)实现的.那么Flink和外部系统(如Kafka)之间的消息传递如何做到exactly once呢?问题所在:如上图，当sink A已经往Kafka写入了数据，而sink B fail。根据Flink的exactly once保证，系统会回滚到最近的checkpoint，但是sink A已经把数据写入到kafka了。Flink无法回滚kafka的state，因此，kafka
复制链接

扫一扫