Spark任务数据倾斜处理

最新推荐文章于 2022-12-05 21:35:55 发布

逆行时针

最新推荐文章于 2022-12-05 21:35:55 发布

阅读量328

点赞数

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/dhyaishuai/article/details/105170797

版权

3 篇文章 0 订阅

订阅专栏

现象：同一个stage中大部分task执行很快少数几个很慢，原本正常的任务，突然OOM，也i可能是数据倾斜。

定位：代码中有shuffle算子，根据慢的task定位stage找到对应的shuffle算子

解决方法：

对数据进行ETL预处理（Hive表有倾斜）
过滤少数没有意义的倾斜的key（可以通过sample算子抽样动态判断）
提高shuffle的并行度（reduceBykey指定分区数）
对原本相同的key加随机前缀，变成不同的key，先做局部聚合，再做全局聚合（同一个key数据量多）、
小表join大表时，可以把小表做广播变量，sparksql可以配spark.sql.autoBroadcastJoinThreshode=10485760（10MB），如果表小于这个参数sparksql默认是不走shuffle去join的，采用广播变量的方式来map join
（一大一小）采样倾斜的key并分拆join，将倾斜的key从原来的RDD拆出来，形成一个RDD，两个RDD分别join，再union，倾斜key的RDD可以加前缀与join的RDD进行join
（两大表）使用随机前缀和扩容RDD进行join和6的过程相同，只不过没有拆左RDD，对所有RDD加前缀

关注