HIVE中，order by、sort by、 distribute by和 cluster by区别，以及cluster by有什么意义

最新推荐文章于 2024-05-09 17:10:22 发布

慢点走

最新推荐文章于 2024-05-09 17:10:22 发布

阅读量5.6k

点赞数 3

分类专栏： Hive # hql 文章标签： hive sort by cluster by distribute by cluster by意义

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42845682/article/details/104953351

版权

Hive 同时被 2 个专栏收录

10 篇文章 1 订阅

订阅专栏

7 篇文章 0 订阅

订阅专栏

文章目录

1. oreder by
2. sort by
3. distribute by
4. cluster by
5. cluster by有什么意义？

1. oreder by

      主要是做全局排序。
      只要hive的sql中指定了order by，那么所有的数据都会到同一个reducer进行处理（不管有多少map，也不管文件有多少的block，只会启动一个reducer ）。但是对于大量数据这将会消耗很长的时间去执行。
      这里跟传统的sql还有一点区别：如果指定了hive.mapred.mode=strict（默认值是nonstrict）,这时就必须指定limit来限制输出条数。因为：所有的数据都会在同一个reducer端进行，数据量大的情况下可能不能出结果，那么在这样的严格模式下，必须指定输出的条数。

2. sort by

每个reduce端都会进行排序，也就是局部有序，可以指定多个reduce。同时，如果想测试一下执行的效果，建议将输出结果保存到本地，并调整reduce的数量。（我设置成3个）

将查询结果保存到本地：

insert overwrite 
local directory '/home/data'
select * from stu sort by gradedesc;

调整reduce的数量：

set mapreduce.job.reduce=3;

查看reduce的数量：

set mapreduce.job.reduce;

但是，只使用sort by的情况下，分区是随机分的。

3. distribute by

指定分区原则。通常和sort by一起用，distribute by必须要写在sort by之前。理解成：按照XX字段分区，再按照XX字段排序
举个例子：

只按照grade字段排序，但是不指定分区字段：

select * from stu sort by grade;

先按照class分区，再按照grade排序：

select * from stu distribute by class sort by grade;

4. cluster by

当distribute by 和 sort by 所指定的字段相同时，即可以使用cluster by。
注意:cluster by指定的列只能是降序，不能指定asc和desc。

举个例子：

select * from stu distribute by class sort by class

等价于：

select * from stu cluster by class

---------------------------------------------分割线-----------------------------------
再举个例子：

select * from stu distribute by class sort by class,name

等价于

select * from stud distribute cluster by class sort by name

注意被cluster by指定的列只能是降序，不能指定asc和desc。

5. cluster by有什么意义？

具体请查看：HIVE中，cluster by有什么意义。

关注

3
点赞
踩
42

收藏

觉得还不错? 一键收藏
8
评论
HIVE中，order by、sort by、 distribute by和 cluster by区别，以及cluster by有什么意义

文章目录1. oreder by2. sort by3. distribute by4. cluster by5. cluster by有什么意义？1. oreder by      主要是做全局排序。      只要hive的sql中指定了order by，那么所有的数据...
复制链接

扫一扫

专栏目录

评论 8

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。