hive:排序查询

1.order by

hive 的order by 就和SQL的order by是一样的,是全局排序。

select * from student order by id;

在这里插入图片描述

2.sort by

对于大规模的数据集order by的效率非常低。在很多情况下,并不需要全局排序,此时可以使用sort by;Sort by为每个reducer产生一个排序文件;每个Reducer内部进行排序。
使用sort by之前,一般要先设置reducer的个数

set mapreduce.job.reduces=3;
select * from student sort by id;

在这里插入图片描述
可以看到reducer的数量为3,并且查询结果也按id分成了3组;
如果把reducer的数量设置为4:

set mapreduce.job.reduces=4;
select * from student sort by id;

在这里插入图片描述

3.distribute by

其实就和sort by是一样的,也是先把所有数据分区,然后区内进行排序,不同的是sort by只设定了排序字段,并没有设置分区字段

select empno,sal from emp
distribute by empno
sort by sal desc;

在这里插入图片描述

4.cluster by

当分区字段和sort by字段一样时,就可以使用cluster by

select empno,sal from emp
cluster by empno;

在这里插入图片描述
可以看到,分区方式还是和上个例子是一样的,只是区内的排序方式不一样了(上例是按sal排序,本例是按empno排序)

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值