Flink实战（九十三）：数据倾斜（二）keyby 窗口数据倾斜的优化

王知无(import_bigdata)

已于 2022-07-05 20:37:49 修改

阅读量779

点赞数

分类专栏： Flink系统性学习专栏文章标签： flink 大数据 kafka

于 2021-01-23 15:10:06 首次发布

原创文章禁止转载。否则追究法律后果。

本文链接：https://blog.csdn.net/u013411339/article/details/113050406

版权

Flink系统性学习专栏专栏收录该内容

256 篇文章 102 订阅 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

本文探讨了大数据处理中的数据倾斜问题，特别是在Flink流式计算中的表现。通过分析一个可能导致数据倾斜的SQL示例，展示了由于某个key数据量过大导致的处理延迟。为了解决这个问题，提出了通过添加随机数重新分组的优化策略，将数据再次打散后再进行聚合计算，有效平衡各子任务的数据分布。经过优化，可以看到数据在各个子任务间的分布变得更加均匀。

摘要由CSDN通过智能技术生成

在大数据处理领域，数据倾斜是一个非常常见的问题，今天我们就简单讲讲在flink中如何处理流式数据倾斜问题。

我们先来看一个可能产生数据倾斜的sql.

select TUMBLE_END(proc_time, INTERVAL '1' MINUTE) as winEnd,plat,count(*) as pv  from source_kafka_table 
group by TUMBLE(proc_time, INTERVAL '1' MINUTE) ,plat

在这个sql里，我们统计一个网站各个端的每分钟的pv，从kafka消费过来的数据首先会按照端进行分组，然后执行聚合函数count来进行pv的计算。如果某一个端产生的数据特别大，比如我们的微信小程序端产生数据远远大于其他app端的数据，那么把这些数据分组到某一个算子之后，由于这个算子的处理速度跟不上，就会产生数据倾斜。

查看flink的ui，会看到如下的场景。