hive中order by 、sort by、distribute by、cluster by、group by操作

最新推荐文章于 2023-06-22 12:32:31 发布

Enzo_bigdata

最新推荐文章于 2023-06-22 12:32:31 发布

阅读量4.5k

点赞数 2

分类专栏： hive hadoop 文章标签： HSQL

本文链接：https://blog.csdn.net/weixin_41907511/article/details/84950235

版权

hadoop 同时被 2 个专栏收录

22 篇文章 0 订阅

订阅专栏

hive

14 篇文章 0 订阅

订阅专栏

order by
对输入做全局排序，因此只有一个reducer，会导致当输入规模较大时，需要较长的计算时间。

SELECT * FROM db_hive.employee ORDER BY empID desc;     //按照empID降序排列

sort by
不是全局排序，其在数据进入reducer前完成排序。因此，如果用sort by进行排序，并且设置mapreduce.job.reduces>1，则sort by只保证每个reducer的输出有序，不保证全局有序。

set mapreduce.job.reduces = 3;   //设置reduce数目
> INSERT [OVERWRITE] LOCAL DIRECTORY '/home/hadoop/hive-exp'
> SELECT * FROM db_hive.employee 
> SORT BY empID asc;        //在本地会生成3个reduce结果文件，每个文件按照empID升序排列

distribute by
类似于MapReduce中分区partation，对数据进行分区，结合sort by进行使用
distribute by控制在map端如何拆分数据给reduce端。hive会根据distribute by后面列，对应reduce的个数进行分发，默认是采用hash算法。

> INSERT [OVERWRITE] LOCAL DIRECTORY '/home/hadoop/hive-exp'
> SELECT * FROM db_hive.employee 
> DISTRIBUTE BY deptNum       //按照部门进行分区
> SORT BY empID asc;        //在本地会根据部门生成结果文件，每个文件按照empID升序排列

cluster by
Cluster by 除了具有distribute by的功能外，还会对该字段进行排序。当distribute by和sort by 字段相同时，可以使用cluster by 代替

group by
是对检索结果的保留行进行单纯分组，一般和聚合函数如AVG()、COUNT()、max()等一块用。

Enzo_bigdata

关注

2
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
hive中order by 、sort by、distribute by、cluster by、group by操作

order by对输入做全局排序，因此只有一个reducer，会导致当输入规模较大时，需要较长的计算时间。SELECT * FROM db_hive.employee ORDER BY empID desc; //按照empID降序排列sort by不是全局排序，其在数据进入reducer前完成排序。因此，如果用sort by进行排序，并且设置mapreduce.job.redu...
复制链接

扫一扫