Flink系列-背压(反压)

最新推荐文章于 2024-06-19 18:50:25 发布

Empty-cup

最新推荐文章于 2024-06-19 18:50:25 发布

阅读量1.5k

点赞数

分类专栏： Flink 文章标签： flink 大数据

本文链接：https://blog.csdn.net/qq_17310871/article/details/126668482

版权

18 篇文章 2 订阅

订阅专栏

了解背压

在流式处理系统中，如果出现下游消费的速度跟不上上游生产数据的速度，就种现象就叫做背压
(backpressure，也叫反压)

下游消费的速度跟不上上游生产数据的速度，可能出现的原因如下：

首先，背压不会直接导致系统的崩盘，只是处在一个不健康的运行状态。

背压会导致流处理作业数据延迟的增加。
影响到 Checkpoint，导致失败，导致状态数据保存不了，如果上游是 kafka 数据源，在一致性
的要求下，可能会导致 offset 的提交不上。
原理: 由于 Flink 的 Checkpoint 机制需要进行 Barrier 对齐，如果此时某个 Task 出现了背压，Barrier流动的速度就会变慢，导致 Checkpoint 整体时间变长，如果背压很严重，还有可能导致 Checkpoint超时失败。
影响 state 的大小，还是因为 checkpoint barrier 对齐要求。导致 state 变大。
原理：接受到较快的输入管道的 barrier 后，它后面数据会被缓存起来但不处理，直到较慢的输入管道的 barrier 也到达。这些被缓存的数据会被放到 state 里面，导致 state 变大。

Flink不需要一个特殊的机制来处理背压，因为Flink中的数据传输相当于已经提供了应对背压的机制。
所以只有从代码上与资源上去做一些调整。

背压部分原因可能是由于数据倾斜造成的，我们可以通过 Web UI 各个 SubTask 的指标值来
确认。Checkpoint detail 里不同 SubTask 的 State size 也是一个分析数据倾斜的有用指标。
解决方式把数据分组的 key 预聚合来消除数据倾斜。
代码的执行效率问题，阻塞或者性能问题。
TaskManager 的内存大小导致背压。