Flink 1.11 新特性详解:【非对齐】Unaligned Checkpoint 优化高反压

最新推荐文章于 2023-12-21 22:06:43 发布

哥伦布112

最新推荐文章于 2023-12-21 22:06:43 发布

阅读量1k

点赞数 1

分类专栏： flink

本文链接：https://blog.csdn.net/u013939918/article/details/107372805

版权

本文深入探讨Flink 1.11的新特性——非对齐（Unaligned）Checkpoint，如何解决高反压情况下传统Checkpoint机制的问题。通过对比分析，解释了Unaligned Checkpoint如何优化高反压下的Checkpoint表现，以及其优势和潜在挑战。

摘要由CSDN通过智能技术生成

问题导读

1.Barrier 对齐会造成什么问题？
2.Barrier 对齐是否会造成反压？
3.如何理解Unaligned Checkpoint ？

作为 Flink 最基础也是最关键的容错机制，Checkpoint 快照机制很好地保证了 Flink 应用从异常状态恢复后的数据准确性。同时 Checkpoint 相关的 metrics 也是诊断 Flink 应用健康状态最为重要的指标，成功且耗时较短的 Checkpoint 表明作业运行状况良好，没有异常或反压。然而，由于 Checkpoint 与反压的耦合，反压反过来也会作用于 Checkpoint，导致 Checkpoint 的种种问题。针对于此，Flink 在 1.11 引入 Unaligned Checkpint 来解耦 Checkpoint 机制与反压机制，优化高反压情况下的 Checkpoint 表现。

当前 Checkpoint 机制简述
相信不少读者对 Flink Checkpoint 基于 Chandy-Lamport 算法的分布式快照已经比较熟悉，该节简单回顾下算法的基础逻辑，熟悉算法的读者可放心跳过。

Chandy-Lamport 算法将分布式系统抽象成 DAG（暂时不考虑有闭环的图），节点表示进程，边表示两个进程间通信的管道。分布式快照的目的是记录下整个系统的状态，即可以分为节点的状态（进程的状态）和边的状态（信道的状态，即传输中的数据）。因为系统状态是由输入的消息序列驱动变化的，我们可以将输入的消息序列分为多个较短的子序列，图的每个节点或边先后处理完某个子序列后，都会进入同一个稳定的全局统状态。利用这个特性，系统的进程和信道在子序列的边界点分别进行本地快照，即使各部分的快照时间点不同，最终也可以组合成一个有意义的全局快照。

图1. Checkpoint Barrier

从实现上看，Flink 通过在 DAG 数据源定时向数据流注入名为 Barrier 的特殊元素，将连续的数据流切分为多个有限序列，对应多个 Checkpoint 周期。每当接收到 Barrier，算子进行本地的 Checkpoint 快照，并在完成后异步上传本地快照，同时将 Barrier 以广播方式发送至下游。当某个 Checkpoint 的所有 Barrier 到达 DAG 末端且所有算子完成快照，则标志着全局快照的成功。

图2. Barrie