Hive数据排序

最新推荐文章于 2023-09-19 22:29:07 发布

Joie.

最新推荐文章于 2023-09-19 22:29:07 发布

阅读量98

点赞数

分类专栏： hadoop

本文链接：https://blog.csdn.net/Joie_TJ/article/details/108736243

版权

hadoop 专栏收录该内容

26 篇文章 0 订阅

订阅专栏

Hive数据排序

order by(全局排序)
sort by(分区内排序)/distribute by
cluster by
总结

order by(全局排序)

order by (asc|desc)类似于标准SQL
只使用一个Reducer执行全局数据排序
速度慢,应提前做好数据过滤
支持使用case when或表达式
支持按位置编号排序

set hive.groupby.orderby.position.alias=true;

在这里插入图片描述

案例：

select name,id,info from employee_id order by info.age;

在这里插入图片描述

select name,id from employee_id order by 2 desc;

在这里插入图片描述

select * from employee_id order by technol["Sales"] desc;

在这里插入图片描述

sort by(分区内排序)/distribute by

sort by对每个Reducer中的数据进行排序
当Reducer数量设置为1时，等于order by
排序列必须出现在select column列表中
distribute by类似于标准SQL中的group by
确保具有匹配列值的行被分区到相同的Reducer
不会对每个Reducer的输出进行排序
通常使用在sort by语句之前
案例：

#group by 分组
select address,count(address) from employee_id group by address;

在这里插入图片描述

#distribute by 排序(不能使用聚合函数)
select address from employee_id distribute by address;
select address from employee_id distribute by address sort by address;

在这里插入图片描述

cluster by

cluster by = distribute by + sort by
不支持ASC|DESC
排序列必须出现在select column列表中
为了充分利用所有的Reducer来执行全局排序，可以先使用cluster by，然后使用order by

总结

order by是全局排序，但在数据量大的情况下，花费时间会很长
sort by是将reduce的单个输出进行排序，不能保证全局有序
distribute by可以按指定字段将数据划分到不同的reduce中
当distribute by的字段和sort by的字段相同时，可以用cluster by来代替 distribute by with sort by。
distribute by和group by的区别
- distribute by不能使用聚合函数，通常使用在sort by语句之前
- group by通常与having使用，可以使用聚合函数

Joie.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hive数据排序

Hive数据排序order by(全局排序)sort by(分区内排序)/distribute bycluster by总结order by(全局排序)order by (asc|desc)类似于标准SQL只使用一个Reducer执行全局数据排序速度慢,应提前做好数据过滤支持使用case when或表达式支持按位置编号排序set hive.groupby.orderby.position.alias=true;案例：select name,id,info from employee
复制链接

扫一扫