hive优化分享第一弹！

码完就去吃饭

已于 2024-01-14 20:48:55 修改

阅读量843

点赞数 26

文章标签： hive hadoop 数据仓库

于 2024-01-14 20:48:26 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_61847352/article/details/135587354

版权

本文分享了五个Hive优化方法，包括运行时优化如Skew Join，编译时优化，Union优化，Map端预聚合及GROUP BY的2次MR优化，以解决数据倾斜问题，提升大数据处理效率。

摘要由CSDN通过智能技术生成

'你是做大数据的，应该很会优化吧（滑稽的笑）' -- 今天被朋友问了这个问题

简直是贴标签！

我只想说，，，方法实在太多了！！！

什么！！你还不会优化！！！

来！！我来分享一点我觉得有用的东西！

1.运行时优化

在表连接的时候，有些key值会很大，就会造成我们头疼的数据倾斜，但是开启下面的参数之后嘞，我们就可以临时把数据临时存储在hdfs~

set hive.optimize.skewjoin=true;

原理：在某些情况下，当连接操作的键存在极端的数据分布不均衡（即倾斜）时，会导致性能下降。Hive 通过开启 hive.optimize.skewjoin 配置项来启用 Skew Join 优化，从而提高连接操作的效率。

当 hive.optimize.skewjoin 设置为 true 时，Hive 在执行连接操作时，会检测输入数据的倾斜情况，并尝试将倾斜的数据拆分成多个部分，再进行连接操作。这样可以避免倾斜数据集中在单个任务上，造成任务不均衡和性能瓶颈。

需要注意的是，开启 Skew Join 可能会增加作业的执行时间和资源消耗，因为它需要额外的计算和数据重组。因此，在使用该设置时，需要根据实际情况评估倾斜数据的程度和性能

最低0.47元/天解锁文章

码完就去吃饭

关注

26
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

码完就去吃饭

博客等级

码龄3年

4
原创

54
点赞

34
收藏

34
粉丝

关注

私信

热门文章

分类专栏

涨知识 1篇
问题解答！ 1篇

最新评论

啥是倒排索引？（涨知识篇~）
CSDN-Ada助手: 恭喜博主第四篇博客的发布！标题看起来很有趣，提到了倒排索引，我对这个概念也不是很了解。希望博主能在博文中详细解释倒排索引的概念和作用，让读者能够更好地理解和应用。此外，我建议博主在未来的创作中探索一些实际案例或者应用场景，这样读者可以更直观地理解和学习相关知识。希望博主能够继续保持创作的热情，期待下一篇博客的发布！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
namenode掉了？亲测有用！！
CSDN-Ada助手: 恭喜你开始了自己的博客创作！看到你分享关于namenode的经验，我觉得很有用。不过，我想建议你在下一篇博客中可以深入探讨一些namenode掉线的解决方法，或者分享一些实用的技巧。希望你能继续坚持写作，期待你更多精彩的分享！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
code 2 问题-map端jion优化
CSDN-Ada助手: 很棒的博文！看到你遇到的问题并成功解决真的很激动。希望你可以继续分享你的经验和技巧。另外，你提到了map端join的优化，我觉得你可以进一步了解一下其他的join优化方法，比如reduce端join和shuffle join，这些方法也能提高查询效率。祝你在学习和实践的路上不断进步！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
hive优化分享第一弹！
CSDN-Ada助手: 恭喜作者发布了第三篇博客！看来你对hive的优化有着深入的研究和专业的见解。希望你能继续保持创作的热情，为我们带来更多有价值的内容。或许在下一篇博客中，你可以分享一些实际案例或者应用经验，让读者更加深入地了解hive的优化方法。期待你的下一篇作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。