Flink反压的解决以及Flink SQL的优化

最新推荐文章于 2024-08-05 10:05:16 发布

影奕轩

最新推荐文章于 2024-08-05 10:05:16 发布

阅读量514

点赞数

文章标签： flink

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2302_76749443/article/details/134250267

版权

一、Flink反压

1、反压的理解

处理速度小于生产速度，然后数据逐级向上游进行传递阻塞，最后传到source端。

2、反压的危害

数据积压导致网络延迟越来越高，影响到checkpoint 时长和 state 大小，导致资源耗尽甚至系统崩溃。

3、反压的定位

最早通过Flink的监控框架prometheus(监控)+grafana（可视化、配置告警）发现反压。然后先把operator chain禁用，方便定位到具体算子。利用 Flink Web UI 定位，通过查看subtask的反压监控，反压状态为HIGH红色的subtask即处于反压。还可以利用Metrics定位，根据指标分析反压，进一步分析数据传输。

4、反压算子的分析

原因一：该节点的发送速率跟不上它的生产速率。（例如：flatmap）那么该节点是反压的根源节点。原因二：下游的节点接受速率较慢，通过反压机制限制了该节点的发送速率。此时需要继续排查下游节点，一直找到第一个为OK的一般就是根源节点。（比较常见）

5、反压的原因和处理

如果通过Flink Web UI查看subtask的反压情况有红有绿 ----> 原因：数据倾斜。

如果通过Flink Web UI查看subtask的反压情况为全红：原因一：算子内部与第三方数据库交互。---->解决方法：旁路缓存+异步IO 原因二：没有交互，是由于资源不足。----> 解决方法：加资源(内存 --> 分析GC情况、CPU -->使用火焰图分析)

二、Flink数据倾斜

1、问题发现

发现一：通过Flink Web UI 可以精确得看到每个Subtask处理的数据量，来判断Flink任务是否存在数据倾斜。发现二：通过Flink Web UI查看任务的反压情况，如果只有个别Subtask呈现反压情况，有红有绿，可以推断出数据倾斜。

2、分析解决

情况一：keyby前数据倾斜。原因：从source数据源读取到的数据本身就是倾斜的。解决：消费到数据以后调用rebalance进行重分区将数据均匀分配。

情况二：keyby后数据倾斜。解决：方法一：直接聚合。通过状态+定时器进行预聚合（时效性会降低）。方法二：开窗聚合。加随机数打散实现双重聚合。第一阶段聚合：key拼接随机数进行keyby、开窗、聚合第二阶段聚合：key拼接窗口信息进行keyby、聚合

三、Flink SQL优化

1、设置空闲状态保留时间

使用到状态的时候就需要考虑这个状态能不能删，什么时候删，防止出现状态爆炸。

2、开启MiniBatch微批处理

先缓存一定的数据后再触发处理，以减少对State的访问，从而提升吞吐量并减少数据的输出量。设置参数：开启MiniBatch，设置批量输出的间隔时间，设置每个批次最多缓存数据的条数（可以设置为两万条）。

3、开启LocalGlobal

即提前进行预聚合。LocalGlobal优化需要先开启MiniBatch。开启LocalGlobal需要UDAF实现Merge方法。

4、开启Split Distinct

要结合MiniBatch一起使用。设置参数：开启Split Distinct，设置第一层打散的bucket数目。默认1024。

5、多维DISTINCT使用Filter

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

影奕轩 CSDN认证博客专家 CSDN认证企业博客

码龄2年

3: 原创

194万+: 周排名

208万+: 总排名

677: 访问

: 等级

30: 积分

0: 粉丝

0: 获赞

3: 评论

3: 收藏

私信

关注

热门文章

最新评论

Flink反压的解决以及Flink SQL的优化
CSDN-Ada助手: 恭喜你写下了第一篇博客！标题听起来非常有吸引力，我对你探讨Flink反压解决方案以及Flink SQL的优化感到非常期待。在博客中，你可以从实际案例出发，深入讨论Flink反压的具体实现和效果，同时分享一些关于Flink SQL优化的实践心得。此外，我建议你在博客中提供一些实用的技巧和最佳实践，以帮助读者更好地理解和应用这些概念。继续加油，期待你的下一篇博文！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
各种快捷键
CSDN-Ada助手: 非常棒的博文！你对各种快捷键的介绍很详细，让人在使用时能够更加高效。继续保持创作吧！除了你提到的快捷键外，还有一些与该博文相关的扩展知识和技能。例如，你可以探索一下如何在不同操作系统中定制自己的快捷键。此外，你还可以研究一下如何使用命令行快捷键来提高工作效率。这些都是与快捷键相关的有趣而实用的知识。期待你在未来的博文中能够分享更多有关快捷键的技巧和经验！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
Hive、Kafa、Flume
CSDN-Ada助手: 恭喜您撰写了关于"Hive、Kafka、Flume"的第三篇博客！您的持续创作真是令人佩服。通过分享关于这些技术的知识，您不仅帮助读者更好地理解它们，也为技术爱好者们提供了宝贵的学习资源。对于下一步的创作建议，我谨建议您继续深入挖掘这些技术的实际应用场景，比如如何在实际项目中有效地使用Hive、Kafka和Flume等等。这样的文章将更有针对性，读者也能更好地将这些知识应用到实践中去。期待您未来更多令人期待的博客！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。