Hive中ORDER BY、SORT BY和DISTRIBUTE BY

ORDERBY

ORDERBY在Hive中的作用同标准SQL中一样,对结果集进行整体排序,ORDER BY 会对结果集进行一个全局排序,所有数据将被放在一个reducer当中处理。
当结果数据量大时,使用ORDER BY不可取,一个reducer处理整个数据集排序进程会很缓慢,不论通过mapreduce.job.reduces参数设置几个reducer,ORDER BY只会使用一个reducer。

SORTBY

SORT BY会对被随机(随机分配数据是为了防止数据的倾斜)分配到每个reducer中的数据集进行排序,注意这种排序在单个reducer是有序的,但不是全局有序。
现有一张hive表:

hive (db_test)> select * from new_score;
OK
new_score.id	new_score.score	new_score.clazz	new_score.department
111	69	class1	department1
112	80	class1	department1
113	74	class1	department1
114	94	class1	department1
115	93	class1	department1
121	74	class2	department1
122	86	class2	department1
123	78	class2	department1
124	70	class2	department1
211	93	class1	department2
212	83	class1	department2
213	94	class1	department2
214	94	class1	department2
215	82	class1	department2
216	74	class1	department2
221	99	class2	department2
222	78	class2	department2
223	74	class2	department2
224	80	class2	department2
225	85	class2	department2
NULL	NULL	NULL	NULL
NULL	NULL	NULL	NULL

设置reducer个数为3,并使用SORT BY排序:

SET mapreduce.job.reduces=3;
SELECT id,score FROM new_score SORT BY score;

排序结果结果集以红线为分割,分为三部分,对应三个reducer内部排序结果。为了让SORT BY排序效果更明显,将上述结果集导出。

hive (db_test)> INSERT OVERWRITE DIRECTORY '/hive-write/sortby'
              > ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
              > SELECT id,score FROM new_score SORT BY score;

在HDFS Web上查看对应目录:
在这里插入图片描述正好三个输出文件,一个reducer对应一个输出文件。查看三个文件中的内容:
在这里插入图片描述在这里插入图片描述在这里插入图片描述发现三个文件内数据都是有序的,也就是说SORT BY 排序的结果集,在每个reducer中进行有序排序,而非全局有序。

DISTRIBUTE BY

DISTRIBUTE BY一般和SORT BY连用,用于指定排序分区,比如上述数据中我希望相同department字段值在同一个reducer中被处理,那么写法如下:

hive (db_test)> SELECT id,score,department FROM new_score DISTRIBUTE BY department SORT BY score;

在这里插入图片描述具有相同department字段值的数据被分配到相同的reducer中处理,导出结果集显示如下:
在这里插入图片描述第三个文件没有数据,因为department的字段值就只有department1和department2两种类型。

CLUSTER BY

当DISTRIBUTE BY和SORT BY字段值相同时,可以使用CLUSTER BY替代。但是排序只能是升序,不能指定ASC或DESC。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值