[Hive]Hive排序优化

1、从order by 到 sort by
order by:全局排序,大数据集会消耗太过漫长的时间
sort by:只会在每个reducer 中对数据进行排序,也就是执行局部排序过程,只能保证每个reducer的输出数据都是有序的(但并非全局有序)
2、sort by+distribute by
distribute by控制map的输出在reducer中是如何划分的。假设我们希望具有相同股票交易码的数据在一起处理。那么我们可以使用distribute by来保证具有相同股票交易码的记录会分发到同一个reducer中进行处理,然后使用sort by来按照我们的期望对数据进行排序。
3、cluster by 
如果distribute by和sort by涉及到的列完全相同,且采用的是升序排序方式,则相当于cluster by。
注意:使用distribute by 与sort by语句或简化版的cluster by语句会剥夺sort by的并行性,然而可以实现输出文件是全局排序的。

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值