ORDERBY
ORDERBY在Hive中的作用同标准SQL中一样,对结果集进行整体排序,ORDER BY 会对结果集进行一个全局排序,所有数据将被放在一个reducer当中处理。
当结果数据量大时,使用ORDER BY不可取,一个reducer处理整个数据集排序进程会很缓慢,不论通过mapreduce.job.reduces参数设置几个reducer,ORDER BY只会使用一个reducer。
SORTBY
SORT BY会对被随机(随机分配数据是为了防止数据的倾斜)分配到每个reducer中的数据集进行排序,注意这种排序在单个reducer是有序的,但不是全局有序。
现有一张hive表:
hive (db_test)> select * from new_score;
OK
new_score.id new_score.score new_score.clazz new_score.department
111 69 class1 department1
112 80 class1 department1
113 74 class1 department1
114 94 class1 department1
115 93 class1 department1
121 74 class2 department1
122 86 class2 department1
123 78 class2 department1
124 70 class2 department1
211 93 class1 department2
212 83 class1 department2
213 94 class1 department2
214 94 class1 department2
215 82 class1 department2
216 74 class1 department2
221 99 class2 department2
222 78 class2 department2
223 74 class2 department2
224 80 class2 department2
225 85 class2 department2
NULL NULL NULL NULL
NULL NULL NULL NULL
设置reducer个数为3,并使用SORT BY排序:
SET mapreduce.job.reduces=3;
SELECT id,score FROM new_score SORT BY score;
结果集以红线为分割,分为三部分,对应三个reducer内部排序结果。为了让SORT BY排序效果更明显,将上述结果集导出。
hive (db_test)> INSERT OVERWRITE DIRECTORY '/hive-write/sortby'
> ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
> SELECT id,score FROM new_score SORT BY score;
在HDFS Web上查看对应目录:
正好三个输出文件,一个reducer对应一个输出文件。查看三个文件中的内容:
发现三个文件内数据都是有序的,也就是说SORT BY 排序的结果集,在每个reducer中进行有序排序,而非全局有序。
DISTRIBUTE BY
DISTRIBUTE BY一般和SORT BY连用,用于指定排序分区,比如上述数据中我希望相同department字段值在同一个reducer中被处理,那么写法如下:
hive (db_test)> SELECT id,score,department FROM new_score DISTRIBUTE BY department SORT BY score;
具有相同department字段值的数据被分配到相同的reducer中处理,导出结果集显示如下:
第三个文件没有数据,因为department的字段值就只有department1和department2两种类型。
CLUSTER BY
当DISTRIBUTE BY和SORT BY字段值相同时,可以使用CLUSTER BY替代。但是排序只能是升序,不能指定ASC或DESC。