hive中的四种排序方法的使用与区别

最新推荐文章于 2024-04-23 13:16:36 发布

大数据fighting

最新推荐文章于 2024-04-23 13:16:36 发布

阅读量1.2k

点赞数 2

文章标签： hive sql 大数据

本文链接：https://blog.csdn.net/qq_41704237/article/details/107299025

版权

1、order by

order by 是全局排序，只有一个reduce（即使设置了多个，也会只走一个），速度较慢，最好事先完成数据的过滤，支持使用case when 或者表达式，排序的数据是reduce后输出的数据
原数据：
在这里插入图片描述
经过order by排序后的数据，可以指定升序asc 降序desc

2、sort by

sort by 全局不排序，而是对进入reduce前的每个分区中的数据进行排序。如果设置reduce task 的数量为多个（一个时等于order by），sort by 只能保证一个reduce中的输入数据按照指定的字段排序，使用sort by你可以指定执行的reduce个数(通过set mapred.reduce.tasks=n来指定)，对输出的数据再执行归并排序，即可得到全部结果。
排序列必须出现在SELECT column列表中
在这里插入图片描述
可以看到，设置reduce的个数为2 ，每个reduce中的数据都根据year字段使用sort by 排序，每个reduce中的数据都是有序的，但是全局的数据是没有序的。

3、distribute by

首先我们要明白一个概念，distribute by是用来分组的，不是用来排序的。
即在map端如何拆分数据给reduce端，可以控制相应的行到同一个reduce中。
hive会根据distribute by后面的字段名以及reduce的个数进行分发，默认是采用hash算法。sort by为每个reduce产生一个排序文件。distribute by控制某个特定行应该到哪个reducer，这通常是为了进行后续的聚集操作。因此，distribute by经常和sort by配合使用。
使用distribute by后：一个字段值的某个值一定都在这个reduce中，但一个reduce中不一定只包含这一个字段值
语句如下：
在这里插入图片描述
结果如下：

4.Cluster by

cluster by除了具有distribute by的功能外还兼具sort by的功能。但是排序只能是正序排序，不能指定排序规则。
排序列必须出现在SELECT column列表中。在这里插入图片描述

大数据fighting

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
hive中的四种排序方法的使用与区别

1、order byorder by 是全局排序，只有一个reduce（即使设置了多个，也会只走一个），速度较慢，最好事先完成数据的过滤，支持使用case when 或者表达式，排序的数据是reduce后输出的数据原数据：经过order by排序后的数据，可以指定升序asc 降序desc2、sort bysort by 全局不排序，而是对进入reduce前的每个分区中的数据进行排序。如果设置reduce task 的数量为多个（一个时等于order by），sort by 只能保证一个re
复制链接

扫一扫