【Spark】数据倾斜

最新推荐文章于 2022-06-04 20:01:49 发布

白露塞纳

最新推荐文章于 2022-06-04 20:01:49 发布

阅读量341

点赞数 1

分类专栏：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/HeavenDan/article/details/115006042

版权

本文详细探讨了Spark数据倾斜的含义、危害、现象和原因，并提供了多种定位和解决方法，包括避免数据源倾斜、过滤倾斜Key、提高shuffle并行度、两阶段聚合、将reduce join转为map join、采样倾斜Key和随机前缀策略等。通过这些策略，可以有效缓解和解决Spark作业中的数据倾斜问题。

摘要由CSDN通过智能技术生成

一、含义、危害

计算数据时，数据分散度不够，导致大量数据集中到一台或几台机器上计算。

局部计算远低于平均计算速度，整个过程过慢。
部分任务处理数据量过大，可能OOM，任务失败，进而应用失败。

二、现象、原因

1、现象：（Spark日志或监控）

1、Executor lost、（Driver）OOM、Shuffle过程出错；
2、正常运行任务突然失败；
3、单个Executor执行时间特别久，整体任务卡在某个阶段不结束；

Spark Streaming更容易出现数据倾斜，特别是包含SQL的join、group操作，因为内存分配不多，很容易出现数据倾斜，造成OOM。

2、原因

数据倾斜只会发生在shuffle阶段。进行shuffle时，必须将各个相同Key拉取到某个节点的一个task进行处理，如按照key进行聚合或join，某个key对应数据量特别大，就会发生数据倾斜。

触发shuffle算子：distinct、groupByKey、reduceByKey、aggregateByKey、join、cogroup、repartition等。

三、定位

1、Sp

最低0.47元/天解锁文章

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
【Spark】数据倾斜

一、含义、危害计算数据时，数据分散度不够，导致大量数据集中到一台或几台机器上计算。局部计算远低于平均计算速度，整个过程过慢。部分任务处理数据量过大，可能OOM，任务失败，进而应用失败。二、现象、原因1、现象：（Spark日志或监控）1、Executor lost、（Driver）OOM、Shuffle过程出错；2、正常运行任务突然失败；3、单个Executor执行时间特别久，整体任务卡在某个阶段不结束；Spark Streaming更容易出现数据倾斜，特别是包含SQL的join、grou
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。