下面关于Hive四种排序方式的区别,描述正确的是()
A、order by 是要对输出的结果进行全局排序,多个reducer可以实现全局排序
B、sort by 不是全局排序,只是在进入到reducer之前完成排序
C、distribute by 指的是按照指定的字段划分到不同的输出reduce文件中,常见使用方式是order by distribute by
D、cluster by不仅支持正序排序,也支持逆序排序
A、order by是最常用的一种排序方式,进行全局排序,因此所有的数据只会在1个reducer上进行排序,所以一般使用order by进行排序的时候速度会相对来说比较慢。
B、sort by是进入reduce之前进行的排序,并不是进行的全局排序。只能办证在进入deducer里面的数据是有序的。因为不是进行全局排序,因此sort by可以自定reducer的个数,然后在对reducer里面的数据在进行排序,也可以得到全局排序的结果。(先试用sort by记性排序,然后在使用order by进行排序会不会也是一种优化的手段)
C、distribute by一般是配合sort by使用,distribute是空值在map端的数据拆分到哪个reducer去记性聚合。在某些情况下,需要控制某行记录到某个reducer上。
一般两者结合使用的场景如下:
小文件很多
map文件大小不均
文件内容很大
reduce接受的文件大小不均
D、cluster by。cluster除了具备distribute by的功能之外还具有sort by的功能;
局限性就是:只能进行倒序排序