Flink -- window数据倾斜解决思路

最新推荐文章于 2024-07-01 02:25:02 发布

IT_Lee_J_H

最新推荐文章于 2024-07-01 02:25:02 发布

阅读量8.9k

点赞数 5

分类专栏：大数据文章标签：大数据 Flink

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/it_lee_j_h/article/details/88641894

版权

本文探讨了Flink中窗口数据倾斜的问题及其解决方案。通过两种思路缓解倾斜：一是使用reduce方法在窗口触发前预聚合；二是扩展key，将数据量大的项目负载分散，再进行聚合，最终得到原始逻辑结果。优化后的拓扑图展示了数据处理的改进过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这里阐述一下Flink中 window间的数据倾斜的解决思路，不做代码展现

场景：

分项目统计某个时间粒度的pv数据

数据情况：

每个项目的数据量不同，某个项目的数据量很大，导致这个项目的窗口中的数据很大，发生倾斜

解决思路：

思路一：

针对window原始方式中在窗口触发前，是以数据积攒的方式进行的。所以针对这种方式可以在window后跟一个reduce方法，在窗口触发前采用该方法进行聚合操作（类似于MapReduce 中 map端combiner预处理思路）

思路二：

思路一种处理后仍有倾斜问题，或者也可以直接采用思路二进行优化、处理。

大致思路：

将key进行扩展，扩展成自定义的负载数，即，将原始的key封装后新的带负载数的key，进行逻辑处理，然后再对新key的计算结果进行聚合，聚合成原始逻辑的结果。

具体实现思路：

1.人为查看具体的倾斜的（数据量大的项目码，例如Code1）

2.将原始的数据元组中keyby分组的键进行扩展，扩展指定的负载个数

例如：

优化前：

数据元组：（项目码，1）

最低0.47元/天解锁文章

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。