Hive 四种排序方法功能和使用

最新推荐文章于 2024-04-23 13:16:36 发布

abcdggggggg

最新推荐文章于 2024-04-23 13:16:36 发布

阅读量1.9k

点赞数 1

分类专栏： Hive 大数据文章标签： hive 大数据数据仓库 hive排序

本文链接：https://blog.csdn.net/qq_35260875/article/details/106340712

版权

大数据同时被 2 个专栏收录

46 篇文章 4 订阅

订阅专栏

Hive

17 篇文章 1 订阅

订阅专栏

1.Order By

（1）功能

根据指定字段进行全局排序，和关系型数据库的用法一样，会生成一个ReduceTask，默认是升序。实际中用的比较多

（2）例子

--升序
select * from emp order by sal;
--降序
select * from emp order by sal desc;

--多列排序
select ename, deptno, sal from emp order by deptno, sal;

2.Sort By

（1）功能

根据mapreduce.job.reduces的值，生成指定数量的ReduceTask，对其进行排序，不是全局排序。

（2）例子

--设置reduce个数，生成5个reduce
set mapreduce.job.reduces = 5;

--根据部门编号降序查看员工信息
select * from emp sort by empno desc;

--将查询结果导入到文件中（根据部门编号降序排序）
insert overwrite local directory '/test/sort' 
select * from emp sort by deptno desc;

3.Distribute By

（1）功能

进行分区，类似于MapReduce的partition，可以结合sort by使用，DISTRIBUTE BY语句要写在SORT BY语句之前。测试的时候需要指定reduce数量

（2）例子

--设置reduce个数
set mapreduce.job.reduces = 5;

--根据部门分区，根据员工排序。导入到文件中
insert overwrite local directory '/test/distribute' 
select * from emp distribute by deptno sort by empno desc;

4.Cluster By

（1）功能

当distribute by和sorts by字段相同时，可以使用cluster by方式，默认是只有升序

（2）例子

select * from emp cluster by deptno;

abcdggggggg

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
Hive 四种排序方法功能和使用

1.Order By（1）功能根据指定字段进行全局排序，和关系型数据库的用法一样，会生成一个ReduceTask，默认是升序。实际中用的比较多（2）例子--升序select * from emp order by sal;--降序select * from emp order by sal desc;--多列排序select ename, deptno, sal from emp order by deptno, sal;2.Sort By（1）功能根.
复制链接

扫一扫