Hive全局排序解决之道

全局排序Order By

Hive中的全局排序,使用Order By来进行,具体语法为:

SELECT <select_expression>, <select_expression>, ...
    FROM <table_name>
    ORDER BY <col_name> [ASC|DESC] [,col_name [ASC|DESC], ...]

但在Hive中使用全局排序时,需要注意,Hive会将所有数据交给一个Reduce任务计算,实现查询结果的全局排序。所以如果数据量很大,只有一个Reduce会耗费大量时间。

Hive的适用场景为离线批处理,在执行全量数据计算任务时,一般是不会用到全局排序的。但在数据查询中,全局排序会经常被用到,而Hive不擅长快速的数据查询,所以需要将Hive处理后的数据存放到支持快速查询的产品中,如Presto、Impala、ClickHouse等。术业有专攻,一个产品一定有自己的适用领域,如果用在不合适的场景,会造成资源浪费。

全局排序思路

如果在数据处理过程中必须要用到全局排序,则最好使用UDF转换为局部排序。实现思路为:先预估数据范围,假设这里数据范围是0-100,然后在每个Map作业中,使用Partitioner对数据进行自定义分发,0-10的数据分发到一个Reduce中,10-20的到一个Reduce中,依次类推,然后在每个Reduce作业中进行局部排序即可。

全局排序优化

但一般而言,对全量数据进行全局排序的场景很少,一般只需要保证查询结果最终有序即可,这时可以先使用子查询得到一个小的结果集,然后再进行排序。

select * from 
(select id,count(1) cnt from <table_name> where id!='0' group by user_id) a 
order by a.cnt;

如果是取TOP N的情况,则可以使用子查询,在每个Reduce中进行排序后,各自取得前N个数据,然后再对结果集进行全局排序,最终取得结果。

--从表中获取name长度为TOP10的数据
select a.id,a.name from 
(
 select id,name  from <table_name>  
 distribute by length(name)  sort by length(name) desc limit 10
 ) a 
 order by length(a.user_name) desc limit 10;

后话

如果有帮助的,记得点赞、关注。在公众号《数舟》中,可以免费获取专栏《数据仓库》配套的视频课程、大数据集群自动安装脚本,并获取进群交流的途径。

我所有的大数据技术内容也会优先发布到公众号中。如果对某些大数据技术有兴趣,但没有充足的时间,在群里提出,我为大家安排分享。

公众号自取:

公众号

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

桥路丶

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值