Hive笔记排序

程序员的账号

已于 2022-11-30 22:13:16 修改

阅读量673

点赞数

分类专栏：大数据文章标签： hive 大数据 hadoop

于 2022-11-30 22:07:55 首次发布

本文链接：https://blog.csdn.net/baidu_41586315/article/details/128123312

版权

大数据专栏收录该内容

5 篇文章 0 订阅

订阅专栏

下面关于Hive四种排序方式的区别，描述正确的是（）
A、order by 是要对输出的结果进行全局排序，多个reducer可以实现全局排序
B、sort by 不是全局排序，只是在进入到reducer之前完成排序
C、distribute by 指的是按照指定的字段划分到不同的输出reduce文件中，常见使用方式是order by distribute by
D、cluster by不仅支持正序排序，也支持逆序排序

A、order by是最常用的一种排序方式，进行全局排序，因此所有的数据只会在1个reducer上进行排序，所以一般使用order by进行排序的时候速度会相对来说比较慢。
B、sort by是进入reduce之前进行的排序，并不是进行的全局排序。只能办证在进入deducer里面的数据是有序的。因为不是进行全局排序，因此sort by可以自定reducer的个数，然后在对reducer里面的数据在进行排序，也可以得到全局排序的结果。（先试用sort by记性排序，然后在使用order by进行排序会不会也是一种优化的手段）
C、distribute by一般是配合sort by使用，distribute是空值在map端的数据拆分到哪个reducer去记性聚合。在某些情况下，需要控制某行记录到某个reducer上。
一般两者结合使用的场景如下：
小文件很多
map文件大小不均
文件内容很大
reduce接受的文件大小不均
D、cluster by。cluster除了具备distribute by的功能之外还具有sort by的功能；
局限性就是:只能进行倒序排序