Spark数据倾斜问题+解决方案

qq_38151176

已于 2022-05-25 19:04:16 修改

阅读量6.2k

点赞数 6

分类专栏： # Spark 文章标签： spark big data 大数据

于 2021-12-12 20:50:11 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38151176/article/details/121893221

版权

1、数据倾斜

数据倾斜指的是，并行处理的数据集中，某一部分（如Spark或Kafka的一个Partition）的数据显著多于其它部分，从而使得该部分的处理速度成为整个数据集处理的瓶颈

数据倾斜俩大直接致命后果

1）数据倾斜直接会导致一种情况：Out Of Memory

2）运行速度慢

主要是发生在Shuffle阶段。同样Key的数据条数太多了。导致了某个key(下图中的80亿条)所在的Task数据量太大了。远远超过其他Task所处理的数据量

一个经验结论是：一般情况下，OOM的原因都是数据倾斜

2、如何定位数据倾斜

数据倾斜一般会发生在shuffle过程中。很大程度是使用可能会触发shuffle操作的算子：distinct、groupByKey、reduceByKey、aggregateByKey、join、cogroup、repartition等。

查看任务->查看Stage->查看代码

4. 定位 SQL 代码

确定任务卡住的 stage

通过 jobname 确定 stage：

一般 Hive 默认的 jobname 名称会带上 stage 阶段，如下通过 jobname 看到任务卡住的为 Stage-4：

在这里插入图片描述

如果 jobname 是自定义的，那可能没法通过 jobname 判断 stage。需要借助于任务日志：

找到执行特别慢的那个 task，然后 Ctrl+F 搜索 “CommonJoinOperator: JOIN struct” 。Hive 在 join 的时候，会把 join 的 key 打印到日志中。如下：
在这里插入图片描述

上图中的关键信息是：struct<_col0:string, _col1:string, _col3:string>

这时候，需要参考该 SQL 的执行计划。通过参考执行计划，可以断定该阶段为 Stage-4 阶段：
在这里插入图片描述

确定 SQL 执行代码

最低0.47元/天解锁文章

关注

6
点赞
踩
48

收藏

觉得还不错? 一键收藏
0
评论
Spark数据倾斜问题+解决方案

1、数据倾斜数据倾斜指的是，并行处理的数据集中，某一部分（如Spark或Kafka的一个Partition）的数据显著多于其它部分，从而使得该部分的处理速度成为整个数据集处理的瓶颈数据倾斜俩大直接致命后果1）数据倾斜直接会导致一种情况：Out Of Memory2）运行速度慢主要是发生在Shuffle阶段。同样Key的数据条数太多了。导致了某个key(下图中的80亿条)所在的Task数据量太大了。远远超过其他Task所处理的数据量一个经验结论是：一般情况下，OOM的原因都是数据倾斜2、如
复制链接

扫一扫

专栏目录

qq_38151176 CSDN认证博客专家 CSDN认证企业博客

码龄7年

25: 原创

52万+: 周排名

115万+: 总排名

3万+: 访问

: 等级

239: 积分

187: 粉丝

10: 获赞

0: 评论

64: 收藏

私信

关注

热门文章

分类专栏

MySQL 1篇
数据仓库 1篇
大数据开发 1篇
Hive 7篇
Spark 11篇
MapReduce 1篇
Flume 1篇
HDFS 2篇
Yarn 1篇
HBASE 2篇

最新评论

mysql在线时长统计
CSDN-Ada助手: 非常感谢博主分享关于mysql在线时长统计的技术文章。我觉得可以继续深入探讨mysql性能优化的话题，比如如何优化查询语句、如何提高数据库读写性能等方面的内容。这样的技术文章对其他用户也非常有帮助。期待博主下一篇关于mysql性能优化的博客，相信会有更多读者受益。为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。