大数据-Hive排序

最新推荐文章于 2024-06-04 14:36:09 发布

cwl_java

最新推荐文章于 2024-06-04 14:36:09 发布

阅读量696

点赞数

分类专栏：大数据文章标签： Hive排序 hive 大数据

本文链接：https://blog.csdn.net/weixin_42528266/article/details/103679409

版权

66 篇文章 0 订阅

订阅专栏

Order By：全局排序，一个reduce

SELECT * FROM student s LEFT JOIN score sco ON s.s_id = sco.s_id ORDER BY sco.s_score DESC;

SELECT * FROM student s LEFT JOIN score sco ON s.s_id = sco.s_id ORDER BY sco.s_score asc;

按照分数的平均值排序

select s_id ,avg(s_score) avg from score group by s_id order by avg;

按照学生id和平均成绩进行排序

select s_id ,avg(s_score) avg from score group by s_id order by s_id,avg;

Sort By：每个MapReduce内部进行排序，对全局结果集来说不是排序。

set mapreduce.job.reduces=3;

set mapreduce.job.reduces;

select * from score sort by s_score;

insert overwrite local directory '/export/servers/hivedatas/sort' select * from score sort by s_score

Distribute By：类似MR中partition，进行分区，结合sort by使用。

注意，Hive要求DISTRIBUTE BY语句要写在SORT BY语句之前。

对于distribute by进行测试，一定要分配多reduce进行处理，否则无法看到distribute by的效果。

案例实操：先按照学生id进行分区，再按照学生成绩进行排序。

set mapreduce.job.reduces=7;

insert overwrite local directory '/export/servers/hivedatas/sort' select * from score distribute by s

当distribute by和sort by字段相同时，可以使用cluster by方式。

cluster by除了具有distribute by的功能外还兼具sort by的功能。但是排序只能是倒序排序，不能指定排序规则为ASC 或者DESC。以下两种写法等价

select * from score cluster by s_id; 
select * from score distribute by s_id sort by s_id;

关注

专栏目录