数据倾斜那些事儿

最新推荐文章于 2024-09-16 16:16:24 发布

读书笔记控

最新推荐文章于 2024-09-16 16:16:24 发布

阅读量577

点赞数 19

分类专栏：大数据杂谈文章标签：人工智能算法机器学习 sql 笔记经验分享 hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41803016/article/details/139242833

版权

大数据杂谈专栏收录该内容

22 篇文章 0 订阅

订阅专栏

目录

一、什么是数据倾斜？

二、预判与预防

三、躲闪策略

四、硬刚策略

一、什么是数据倾斜？

之前在大厂当了好几年的sqlboy，数据倾斜这个“小烦人精”确实经常在工作中出没。用简单的话来说，数据倾斜就像是“贫富差距”在数据世界里的体现——某些数据特别“富有”，而其他数据则相对“贫穷”。

具体来说，数据倾斜指的是在数据集中，某个特定的特征值或某个类别的样本数量，远大于其他特征值或类别的样本数量。

那么，数据倾斜会带来哪些问题呢？

性能下降：由于某些节点或任务处理的数据量远大于其他节点，这些节点或任务的执行时间会更长，导致整体性能下降。
资源浪费：虽然大部分节点或任务可能很快完成，但由于少数节点或任务的处理时间过长，整个系统需要等待这些任务完成，从而浪费了计算资源。

接下来，让我们来看看如何解决这个“贫富差距”问题：

二、预判与预防

确保原始数据不倾斜：在收集数据时，尽量确保数据的多样性和均衡性，避免出现明显的倾斜。

三、躲闪策略

规避数据倾斜：在数据处理和分析过程中，尽量规避可能导致数据倾斜的操作，比如避免对某些特征进行过度的筛选或聚合。
识别key的热值：通过无放回采样，查看key的分布，识别出倾斜的key值。
数据过滤：对造成数据倾斜的超级key值进行过滤，单独处理这些节点。

四、硬刚策略

当无法避免数据倾斜时，我们可以采用各种方法来优化处理过程：

调整数据分区方式：例如，使用哈希分区将数据均匀地分散到不同的节点上，从而减少节点间的负载差异。
增加分区数目：将数据划分到更多的节点上进行并行计算，从而减轻负载压力。但需要注意，过多的分区数目也会增加通信开销。
使用随机前缀：为键值对添加随机前缀，可以将原本集中在少数节点上的数据分散到更多的节点上，实现负载均衡。
增加Combiner的使用：在Map阶段之后、Reduce阶段之前对Map任务的输出进行局部聚合，减少数据传输量，从而减轻节点间的负载差异。
使用二次聚合：在第一次聚合的结果上再进行一次聚合操作，将数据进一步合并，减少节点间的负载差异。
动态调整分区策略：根据实际情况动态调整分区策略，实现负载均衡。
数据重分布：如果以上方法都无法解决数据倾斜问题，可以考虑进行数据重分布。

通过这些方法，我们可以有效地应对数据倾斜问题，让数据世界变得更加和谐与平衡。

这里主要是列举了解决数据倾斜的思路，没有举具体的例子。如有需要，请留言。

读书笔记控

关注

19
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

读书笔记控 CSDN认证博客专家 CSDN认证企业博客

码龄7年

46: 原创

105万+: 周排名

2万+: 总排名

5万+: 访问

: 等级

1716: 积分

938: 粉丝

1268: 获赞

11: 评论

782: 收藏

私信

关注

热门文章

分类专栏

最新评论

什么是TCP/IP协议
全栈小5: 你的文章很有深度和广度，不仅表达了你的思考和理解，也激发了读者的思考和感悟【什么是TCP/IP协议，博主这篇文章，值得一看】
什么是TCP/IP协议
豆小匠: 博客标题：什么是TCP/IP协议。评论：干货啊，TCP/IP协议是互联网通信的基础协议栈，包括传输控制协议（TCP）和网络协议（IP）等多个层次协议，用于实现不同网络之间的数据传输和通信。TCP负责传输数据，确保数据的可靠性和顺序性；IP则负责数据的路由和寻址。感谢作者的详细讲解，让我对这个重要的协议有了更深入的了解！
VPN是什么？
Inverse162: 好文章，够俗套
HBase数据库面试知识点：第二部分 - 核心技术（持续更新中）
普通网友: 写的很详细，感谢博主的分享。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
豆瓣9.6分统计学神作ISL之第五章读书笔记，带你系统学习交叉验证（cross-validation）和自助法（bootstrap）
读书笔记控: 后面会把原版的电子书和资源包发出来。这个其实都是公开的，可以去我的第一章读书笔记找这本书的官方网站

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。