**解决数据倾斜之方法---加盐

本文探讨了数据倾斜的问题,即数据分布不均导致部分SubTask处理负担过重,影响系统效率。提出了解决方案,包括调整数据源并发度以解决消费不均匀问题,以及通过添加随机前缀(加盐)、使用自定义分区器、预聚合等方式重新平衡数据分布。以Kafka为例,建议Source并发度与分区个数匹配,并提供了优化后的SQL示例,展示了如何在聚合前利用加盐技术打散数据,从而提高处理效率。
摘要由CSDN通过智能技术生成

1.场景描述

数据倾斜:由于数据分布不均匀,数据集中在某些 SubTask 上,导致部分

SubTask 处理数据量特别大,执行时间过长,影响了整个应用程序的执行效率。

过多的数据集中在某些 JVM(TaskManager),使得 JVM 的内存资源短缺,导

致频繁 GC。严重情况下,过长的 GC 导致 TaskManager 失联,系统崩溃

2 解决方式

(1)数据源的消费不均匀:调整并发度。

对于数据源消费不均匀,比如 Kafka 数据源,通常是通过调整数据源算子的

并发度实现的。

通常情况下 Source 的并发度和 Kafka 的分区个数一样或者 Kafka 分区个数是

Source 并发度的正整数倍。

(2)数据分布不均匀。

(1)通过添加随机前缀打散它们的分布,使得数据不会集中在几个 Task

中。

(2)调用分区方法 rebalance、rescale 操作,使数据分布均匀。

(3)自定义分区器。

(4)聚合统计前,先进行预聚合,例如两阶段聚合(加盐局部聚合+去盐全

局聚合)。
 

select TUMBLE_END(proc_time, INTERVAL '1' MINUTE) as wi
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值