大数据SQL数据倾斜与数据膨胀的优化与经验总结

code36

已于 2024-07-13 11:19:16 修改

阅读量933

点赞数 33

分类专栏：数据库文章标签：大数据 sql 数据库

于 2024-06-27 08:53:35 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pujungong/article/details/140003398

版权

数据库专栏收录该内容

25 篇文章 0 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

本文主要基于团队实际开发经验与积累，并结合了业界对大数据SQL的使用与优化，尝试给出相对系统性的解决方案。

背景

目前市面上大数据查询分析引擎层出不穷，如Spark，Hive，Presto等，因其友好的SQL语法，被广泛应用于各领域分析，公司内部也有优秀的ODPS SQL供用户使用。

笔者所在团队的项目也借用ODPS SQL去检测业务中潜在的安全风险。在给业务方使用与答疑过程中，我们发现大多含有性能瓶颈的SQL，主要集中在数据倾斜与数据膨胀问题中。因此，本文主要基于团队实际开发经验与积累，并结合业界对大数据SQL的使用与优化，尝试给出相对系统性的解决方案。

本文主要涉及业务SQL执行层面的优化，暂不涉及参数优化。若设置参数，首先确定执行层面哪个阶段（Map/Reduce/Join）任务执行时间较长，从而设置对应参数。

本文主要分为以下三个部分：第一部分，会引入数据倾斜与数据膨胀问题。第二部分，介绍当数据倾斜与数据膨胀发生时，如何排查与定位。第三部分，会从系统层面给出常见优化思路。

问题篇

数据倾斜

数据倾斜是指在分布式计算时，大量相同的key被分发到同一个reduce节点中。针对某个key值的数据量比较多，会导致该节点的任务数据量远大于其他节点的平均数据量ÿ

了解本专栏

超级会员免费看

关注

33
点赞
踩
13

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

code36 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。