12排序

最新推荐文章于 2021-08-20 13:39:26 发布

hao难懂

最新推荐文章于 2021-08-20 13:39:26 发布

阅读量184

点赞数

分类专栏： hive basic 文章标签： hadoop hvie 数据库排序

本文链接：https://blog.csdn.net/ExclusiveName/article/details/99673996

版权

hive basic 专栏收录该内容

22 篇文章 1 订阅

订阅专栏

1.全局排序(OrderBy)

	全局排序，一个Reducer
ASC(ascend)：升序(默认)
DESC(descend)：降序

2.实例：

查询员工信息按工资升序(or降序)排列
	select * from emp order by sal;
	select * from emp order by sal desc;

3.按照别名排序

按照员工薪水的2倍排序
select ename,sal*2 twosal from emp order by twosal;

4.多个列排序

按照部门和工资升序排序
select ename,deptno,sal from emp order by deptno,sal;

5.每个MapReduce内部排序(Sort By)

Sort By：每个Reducer内部进行排序，对全局结果集来说不是排序。
		
5.1设置reduce个数
	set mapreduce.job.reduces=3;
	
5.2查看设置reduce个数
	set mapreduce.job.reduces;

5.3根据部门编号降序查看员工信息
	select * from emp sort by empno desc;
	
5.4将查询结果导入到文件中(按照部门编号降序排序)
	insert overwrite local directory '/root/hivedata/sortby-result' 
		select * from emp sort by deptno desc;

6.分区排序(Distribute By)

Distribute By：类似MR中partition，进行分区，结合sort by使用。

6.1注意：
	Hive要求DISTRIBUTE BY语句要写在SORT BY语句之前。
 
6.2实例
	先按照部门编号分区，再按照员工编号降序排序。
		set mapreduce.job.reduces=3;
	insert overwrite local directory '/root/hivedata/distribute-result'
		select * from emp distribute by deptno sort by empno desc;

7.(Cluster By)

7.1注意：
	当distribute by和sorts by字段相同时，可以使用cluster by方式。
		cluster by除了具有distribute by的功能外还兼具sort by的功能。
	但是只能升序排列，不能指定排序规则为ASC或者DESC。

7.2两种等价写法
	select * from emp cluster by deptno;
	select * from emp distribute by deptno sort by deptno;
		
		注意：按照部门编号分区，不一定就是固定死的数值，
			  可以是20号和30号部门分到一个分区里面去。