Hive笔记 排序

下面关于Hive四种排序方式的区别,描述正确的是()
A、order by 是要对输出的结果进行全局排序,多个reducer可以实现全局排序
B、sort by 不是全局排序,只是在进入到reducer之前完成排序
C、distribute by 指的是按照指定的字段划分到不同的输出reduce文件中,常见使用方式是order by distribute by
D、cluster by不仅支持正序排序,也支持逆序排序

A、order by是最常用的一种排序方式,进行全局排序,因此所有的数据只会在1个reducer上进行排序,所以一般使用order by进行排序的时候速度会相对来说比较慢。
B、sort by是进入reduce之前进行的排序,并不是进行的全局排序。只能办证在进入deducer里面的数据是有序的。因为不是进行全局排序,因此sort by可以自定reducer的个数,然后在对reducer里面的数据在进行排序,也可以得到全局排序的结果。(先试用sort by记性排序,然后在使用order by进行排序会不会也是一种优化的手段)
C、distribute by一般是配合sort by使用,distribute是空值在map端的数据拆分到哪个reducer去记性聚合。在某些情况下,需要控制某行记录到某个reducer上。
一般两者结合使用的场景如下:
小文件很多
map文件大小不均
文件内容很大
reduce接受的文件大小不均
D、cluster by。cluster除了具备distribute by的功能之外还具有sort by的功能;
局限性就是:只能进行倒序排序

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值