基于metric监控反压

最新推荐文章于 2023-12-17 17:30:05 发布

左林右李02

最新推荐文章于 2023-12-17 17:30:05 发布

阅读量154

点赞数

分类专栏： flink

原文链接：https://zhuanlan.zhihu.com/p/92743373

版权

flink 专栏收录该内容

59 篇文章 42 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

本文探讨了反压在Flink作业中的影响，包括延长checkpoint时间和增大state大小的风险。通过Flink Web UI的反压监控面板和Task Metrics来定位反压源头，强调了从Source到Sink逐级排查的重要性。监控面板提供SubTask级别的反压状态，而Task Metrics则提供更多详细信息，帮助诊断是任务发送速率过慢还是下游接收缓慢导致的反压。

摘要由CSDN通过智能技术生成

反压影响

反压除了会导致数据产出变慢，还会影响到两项指标: checkpoint 时长和 state 大小

前者是因为 checkpoint barrier 是不会越过普通数据的，数据处理被阻塞也会导致 checkpoint barrier 流经整个数据管道的时长变长，因而 checkpoint 总体时间（End to End Duration）变长。
后者是因为为保证 EOS（Exactly-Once-Semantics，准确一次），对于有两个以上输入管道的 Operator，checkpoint barrier 需要对齐（Alignment），接受到较快的输入管道的 barrier 后，它后面数据会被缓存起来但不处理，直到较慢的输入管道的 barrier 也到达，这些被缓存的数据会被放到state 里面，导致 checkpoint 变大。

这两个影响对于生产环境的作业来说是十分危险的，因为 checkpoint 是保证数据一致性的关键，checkpoint 时间变长有可能导致 checkpoint 超时失败，而 state 大小同样可能拖慢 checkpoint 甚至导致 OOM （使用 Heap-based StateBackend）或者物理内存使用超出容器资源（使用 RocksDBStateBackend）的稳定性问题。

定位反压节点

要解决反压首先要做的是定位到造成反压的节点，这主要有两种办法:

通过 Flink Web UI 自带的反压监控面板；
通过 Flink Task Metrics。
前者比较容易上手，适合简单分析，后者则提供了更加丰富的信息，适合用于监控系统。因为反压会向上游传导，这两种方式都要求我们从 Source 节点到 Sink 的逐一排查，直到找到造成反压的根源原因。下面分别介绍这两种办法。

反压监控面板

Flink Web UI 的反压监控提供了 SubTask 级别的反压监控，原理是通过周期性对 Task 线程的栈信息采样，得到线程被阻塞在请求 Buffer（意味着被下游队列阻塞）的频率来判断该节点是否处于反压状态。默认配置下，这个频率在 0.1 以下则为 OK，0.1 至 0.5 为 LOW，而超过 0.5 则为 HIGH。
在这里插入图片描述
如果处于反压状态，那么有两种可能性：