Hive排序

order by全局排序
全局排序,只用一个reducer,asc(ascend)升序(默认)
desc(descend)降序

select * from emp order by sal;
select * from emp order by sal desc;
select ename,sal*2 twosal from emp order by twosal;
select ename, deptno,sal from emp order by deptno,sal;

sort by
sort by对于大规模的数据集order by的效率非常低,在很多情况下,并不需要全局排序,此时可以使用sort by,sort by为每个reducer产生一个排序文件,每个reducer内部进行排序,对全局结果集来说不是排序.
设置reduce个数

set mapreduce.job.reduces=3;

查看设置reduce个数

set mapreduce.job.reduces;

分桶表数据存储
分区提供一个隔离数据和优化查询的便利方式,不过,并非所有的数据集都可形成合理的分区.对于一张表或者分区,hive可以进一步组织成桶,也就是更为细力度的数据范围划分.
分桶是将数据集分解成更容易管理的若干部分的另一个技术.
分区针对的是数据的存储路径:分桶针对的是数据文件.


cluster by
cluster by除了具有distribute by的功能外,还兼具sort by的功能,但是排序只能是升序排序,不能指定排序规则为asc或者desc.
cluster by其实是把distribute by和sorts by给结合了.
当distribute by 和sort by字段相同时,可以使用cluster by方式.

select * from emp cluster by deptno;
select * from emp distribute by deptno sort by deptno;

分区排序(distribute by)

distribute by:在有些情况下,我们需要控制某个特定行应该到哪个reducer,通常是为了进行后续的聚集操作,distribute by子句可以做这件事,distribute by类似MR中的partition(自定义分区),进行分区,结合sort by使用.
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

疯子@123

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值