hive避免数据倾斜问题总结（个人总结，方便日后复习）

Little_Car_A_Day

于 2023-10-18 11:39:51 发布

阅读量96

点赞数 1

文章标签： hive hadoop 数据仓库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Little_Car_A_Day/article/details/133893689

版权

hive数据倾斜大多是因为主键分布不均，节点之间的数据量差异太大。所以解决方法都是围绕如何分散倾斜的数据（也就是均匀分配主键key值）

first：一般都是一些Map Join,Bucket Map Join,SMB Join.一般这些不需要考虑，这些配置文件基本上中台都会配置，用不到自己去操作。

second：①key值分配不均匀

加盐操作：

1.与另一个字段组合如学号组成新字段，按新字段分组
2.使用随机数与性别做组合，形成新字段，按新字段分组
两种方法目的一样，都是让数据能够分散到不同的节点中，保证相对均衡

②key空值太多

1.主键为空的数据先不参与计算，最后使用union all 进行合并

2.给空值分配随机的key值，可以分配平均数，随机数，中位数，但是空值大多为主键，用concat其他列，hash值就不一样。（用新生成的一列为主键，原字段不做更改）

Little_Car_A_Day

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
hive避免数据倾斜问题总结（个人总结，方便日后复习）

2.给空值分配随机的key值，可以分配平均数，随机数，中位数，但是空值大多为主键，用concat其他列，hash值就不一样。first：一般都是一些Map Join,Bucket Map Join,SMB Join.一般这些不需要考虑，这些配置文件基本上中台都会配置，用不到自己去操作。所以解决方法都是围绕如何分散倾斜的数据（也就是均匀分配主键key值）两种方法目的一样，都是让数据能够分散到不同的节点中，保证相对均衡。2.使用随机数与性别做组合，形成新字段，按新字段分组。second：①key值分配不均匀。
复制链接

扫一扫

Little_Car_A_Day CSDN认证博客专家 CSDN认证企业博客

码龄2年

4: 原创

166万+: 周排名

28万+: 总排名

910: 访问

: 等级

45: 积分

1: 粉丝

4: 获赞

4: 评论

0: 收藏

私信

关注

热门文章

最新评论

hive避免数据倾斜问题总结（个人总结，方便日后复习）
CSDN-Ada助手: 非常棒的总结！你的博客对于解决hive数据倾斜问题提供了很好的指导。同时，我想提醒你一些与该主题相关的扩展知识和技能，这些在标题和摘要中没有提到。例如，在处理数据倾斜问题时，你可以尝试使用Hive的动态分区和动态调整并行度的功能，这有助于更好地处理倾斜数据。此外，你还可以学习如何使用Hive的Bucketing和Sorting等技术来进一步优化性能。希望你可以继续分享你的经验，期待看到更多关于Hive和数据处理的博客！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
Hive中order by ,distribute by ,sort by ,cluster by 作用与区别（带图分析）
CSDN-Ada助手: 非常感谢您分享这篇博客，标题看起来非常有趣和有用！恭喜您能够持续创作，并对Hive中的order by, distribute by, sort by, cluster by进行了详细的解析和图示分析。我很喜欢您对这些功能的区别进行了说明，这对于理解Hive查询和数据处理过程非常重要。作为下一步的创作建议，我希望能够看到更多实际案例或者应用场景的介绍，这样读者可以更好地理解这些功能在实际项目中的应用。同时，如果您能提供一些使用这些功能时可能遇到的常见问题和解决方法，那将会更加有帮助。再次感谢您的分享，期待您未来更多精彩的博客！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
spark面试简洁版
CSDN-Ada助手: 恭喜你写下了第四篇博客！标题中的"spark面试简洁版"听起来非常吸引人。你的创作能力非常令人钦佩，坚持写博客对于提高自己的技能和知识水平非常有帮助。接下来，我想给你一些建议，希望对你的下一篇博客有所帮助。首先，考虑尝试探索更多与spark面试相关的话题，例如面试中的常见问题、解决问题的技巧和经验分享等等。此外，你还可以考虑添加一些实际案例或者示例代码，这样读者可以更好地理解你的观点。总之，你的写作已经非常出色，我期待着你下一篇博客的发布。继续保持努力，不断提升自己的写作技巧和专业知识。祝你好运！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
StarRocks库中，关于count(distinct)的使用
CSDN-Ada助手: 恭喜您开始博客创作！标题“StarRocks库中，关于count(distinct)的使用”听起来非常有吸引力。您选择了一个热门的话题，探讨StarRocks库中的count(distinct)使用，这对于读者来说无疑是一个有价值的主题。接下来，我建议您能够更深入地探讨这个功能在实际应用中的优势和限制。同时，您可以考虑提供一些实用的示例，以帮助读者更好地理解和应用这个功能。期待看到更多精彩的博客文章！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。