Hive中order by ,distribute by ,sort by ,cluster by 作用与区别（带图分析）

最新推荐文章于 2023-12-01 09:00:00 发布

Little_Car_A_Day

最新推荐文章于 2023-12-01 09:00:00 发布

阅读量381

点赞数 1

文章标签： hive hadoop 数据仓库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Little_Car_A_Day/article/details/133904764

版权

1.order by

hive中的order by会对查询结果集执行一个全局排序，这也就是说map阶段中所有数据会在一个ruduce中进行处理，对于大数据集是一个很大的消耗

使用场景：当需要对查询结果进行全局排序，并且数据量较小的情况下，可以使用order by。

、

2.sort by

hive中的sort by 是执行一个局部排序的过程。这可以保证每个ruduce输出的数据是有序的，但并非全局有序。

使用场景：前提reduce个数大于1，当需要按照指定的列对查询结果进行局部排序，而不要求全局有序时，可以使用sort by。

3.distribute by（不会对reduce中数据排序）

distribute by 控制map的输出在reduce中如何划分的；MapReduce框架依据map输入的key值计算想用的hash值，然后按照得到的hash值将键值对均匀分布到多个reduce中。sort by 是对每个reduce排序，redue中会有一部分数据相同，会造成一部分数据重叠。比如统计同一年的数据，这时候可以使用distribute by将相同数据分到一个reduce中，然后再用sort by

使用场景：distribute by通常与sort by或cluster by一起使用，以控制数据的分区和排序。当需要按照指定的列对数据进行分发，并且可能需要后续的排序操作时，可以使用distribute by。

4.cluster by

cluster by 不仅有distribute by的功能，还会有reduce中的数据进行排序，相当于

cluster by=distribute by+sort by

Little_Car_A_Day

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Hive中order by ,distribute by ,sort by ,cluster by 作用与区别（带图分析）

当需要按照指定的列对数据进行分发，并且可能需要后续的排序操作时，可以使用distribute by。hive中的order by会对查询结果集执行一个全局排序，这也就是说map阶段中所有数据会在一个ruduce中进行处理，对于大数据集是一个很大的消耗。前提reduce个数大于1，当需要按照指定的列对查询结果进行局部排序，而不要求全局有序时，可以使用sort by。cluster by 不仅有distribute by的功能，还会有reduce中的数据进行排序，相当于。
复制链接

扫一扫

Little_Car_A_Day CSDN认证博客专家 CSDN认证企业博客

码龄2年

4: 原创

167万+: 周排名

31万+: 总排名

1049: 访问

: 等级

45: 积分

1: 粉丝

4: 获赞

4: 评论

0: 收藏

私信

关注

热门文章

最新评论

hive避免数据倾斜问题总结（个人总结，方便日后复习）
CSDN-Ada助手: 非常棒的总结！你的博客对于解决hive数据倾斜问题提供了很好的指导。同时，我想提醒你一些与该主题相关的扩展知识和技能，这些在标题和摘要中没有提到。例如，在处理数据倾斜问题时，你可以尝试使用Hive的动态分区和动态调整并行度的功能，这有助于更好地处理倾斜数据。此外，你还可以学习如何使用Hive的Bucketing和Sorting等技术来进一步优化性能。希望你可以继续分享你的经验，期待看到更多关于Hive和数据处理的博客！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
Hive中order by ,distribute by ,sort by ,cluster by 作用与区别（带图分析）
CSDN-Ada助手: 非常感谢您分享这篇博客，标题看起来非常有趣和有用！恭喜您能够持续创作，并对Hive中的order by, distribute by, sort by, cluster by进行了详细的解析和图示分析。我很喜欢您对这些功能的区别进行了说明，这对于理解Hive查询和数据处理过程非常重要。作为下一步的创作建议，我希望能够看到更多实际案例或者应用场景的介绍，这样读者可以更好地理解这些功能在实际项目中的应用。同时，如果您能提供一些使用这些功能时可能遇到的常见问题和解决方法，那将会更加有帮助。再次感谢您的分享，期待您未来更多精彩的博客！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
spark面试简洁版
CSDN-Ada助手: 恭喜你写下了第四篇博客！标题中的"spark面试简洁版"听起来非常吸引人。你的创作能力非常令人钦佩，坚持写博客对于提高自己的技能和知识水平非常有帮助。接下来，我想给你一些建议，希望对你的下一篇博客有所帮助。首先，考虑尝试探索更多与spark面试相关的话题，例如面试中的常见问题、解决问题的技巧和经验分享等等。此外，你还可以考虑添加一些实际案例或者示例代码，这样读者可以更好地理解你的观点。总之，你的写作已经非常出色，我期待着你下一篇博客的发布。继续保持努力，不断提升自己的写作技巧和专业知识。祝你好运！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
StarRocks库中，关于count(distinct)的使用
CSDN-Ada助手: 恭喜您开始博客创作！标题“StarRocks库中，关于count(distinct)的使用”听起来非常有吸引力。您选择了一个热门的话题，探讨StarRocks库中的count(distinct)使用，这对于读者来说无疑是一个有价值的主题。接下来，我建议您能够更深入地探讨这个功能在实际应用中的优势和限制。同时，您可以考虑提供一些实用的示例，以帮助读者更好地理解和应用这个功能。期待看到更多精彩的博客文章！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。