1.场景描述
数据倾斜:由于数据分布不均匀,数据集中在某些 SubTask 上,导致部分
SubTask 处理数据量特别大,执行时间过长,影响了整个应用程序的执行效率。
过多的数据集中在某些 JVM(TaskManager),使得 JVM 的内存资源短缺,导
致频繁 GC。严重情况下,过长的 GC 导致 TaskManager 失联,系统崩溃
2 解决方式
(1)数据源的消费不均匀:调整并发度。
对于数据源消费不均匀,比如 Kafka 数据源,通常是通过调整数据源算子的
并发度实现的。
通常情况下 Source 的并发度和 Kafka 的分区个数一样或者 Kafka 分区个数是
Source 并发度的正整数倍。
(2)数据分布不均匀。
(1)通过添加随机前缀打散它们的分布,使得数据不会集中在几个 Task
中。
(2)调用分区方法 rebalance、rescale 操作,使数据分布均匀。
(3)自定义分区器。
(4)聚合统计前,先进行预聚合,例如两阶段聚合(加盐局部聚合+去盐全
局聚合)。
select TUMBLE_END(proc_time, INTERVAL '1' MINUTE) as wi