hive优化：cluster by = distribute by + sort by

最新推荐文章于 2024-07-29 09:03:07 发布

世昌愿世昌盛

最新推荐文章于 2024-07-29 09:03:07 发布

阅读量255

点赞数

分类专栏：大数据文章标签： hive

本文链接：https://blog.csdn.net/Harden_zsc/article/details/109839463

版权

大数据专栏收录该内容

25 篇文章 2 订阅

订阅专栏

sort by不是全局排序是输入做全局排序，其在数据进入reducer前完成排序。
因此，如果用sort by进行排序，并且设置mapred.reduce.tasks>1，
则sort by只保证每个reducer的输出有序，不保证全局有序。



distribute by(字段)根据指定的字段将数据分到不同的reducer，且分发算法是hash散列。

Cluster by(字段) 除了具有Distribute by的功能外，还会对该字段进行排序。

因此，如果分桶和sort字段是同一个时，此时，cluster by = distribute by + sort by

分桶表的作用：最大的作用是用来提高join操作的效率；

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

世昌愿世昌盛

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hive优化：cluster by = distribute by + sort by

sort by不是全局排序是输入做全局排序，其在数据进入reducer前完成排序。因此，如果用sort by进行排序，并且设置mapred.reduce.tasks>1，则sort by只保证每个reducer的输出有序，不保证全局有序。distribute by(字段)根据指定的字段将数据分到不同的reducer，且分发算法是hash散列。Cluster by(字段) 除了具有Distribute by的功能外，还会对该字段进行排序。因此，如果分桶和sort字段是同一个时，此时，c
复制链接

扫一扫