hive中的四种排序方法的使用与区别

1、order by

order by 是全局排序,只有一个reduce(即使设置了多个,也会只走一个),速度较慢,最好事先完成数据的过滤,支持使用case when 或者表达式,排序的数据是reduce后输出的数据
原数据:
在这里插入图片描述
经过order by排序后的数据 ,可以指定升序asc 降序desc
在这里插入图片描述

2、sort by

sort by 全局不排序,而是对进入reduce前的每个分区中的数据进行排序。如果设置reduce task 的数量为 多个(一个时等于order by),sort by 只能保证一个reduce中的输入数据按照指定的字段排序,使用sort by你可以指定执行的reduce个数(通过set mapred.reduce.tasks=n来指定),对输出的数据再执行归并排序,即可得到全部结果。
排序列必须出现在SELECT column列表中
在这里插入图片描述
可以看到,设置reduce的个数为2 ,每个reduce中的数据都根据year字段使用sort by 排序,每个reduce中的数据都是有序的,但是全局的数据是没有序的。

3、distribute by

首先我们要明白一个概念,distribute by是用来分组的,不是用来排序的。
即在map端如何拆分数据给reduce端,可以控制相应的行到同一个reduce中。
hive会根据distribute by后面的字段名以及reduce的个数进行分发,默认是采用hash算法。sort by为每个reduce产生一个排序文件。distribute by控制某个特定行应该到哪个reducer,这通常是为了进行后续的聚集操作。因此,distribute by经常和sort by配合使用。
使用distribute by后:一个字段值的某个值一定都在这个reduce中,但一个reduce中不一定只包含这一个字段值
语句如下:
在这里插入图片描述
结果如下:
在这里插入图片描述

4.Cluster by

cluster by除了具有distribute by的功能外还兼具sort by的功能。但是排序只能是正序排序,不能指定排序规则。
排序列必须出现在SELECT column列表中。在这里插入图片描述

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值