Hive全局排序解决之道

最新推荐文章于 2024-04-23 13:16:36 发布

桥路丶

最新推荐文章于 2024-04-23 13:16:36 发布

阅读量2.0k

点赞数

分类专栏：大数据文章标签：数据仓库大数据 hive hadoop

本文链接：https://blog.csdn.net/qq_33876553/article/details/112216712

版权

大数据专栏收录该内容

44 篇文章 7 订阅

订阅专栏

全局排序Order By

Hive中的全局排序，使用Order By来进行，具体语法为：

SELECT <select_expression>, <select_expression>, ...
    FROM <table_name>
    ORDER BY <col_name> [ASC|DESC] [,col_name [ASC|DESC], ...]

但在Hive中使用全局排序时，需要注意，Hive会将所有数据交给一个Reduce任务计算，实现查询结果的全局排序。所以如果数据量很大，只有一个Reduce会耗费大量时间。

Hive的适用场景为离线批处理，在执行全量数据计算任务时，一般是不会用到全局排序的。但在数据查询中，全局排序会经常被用到，而Hive不擅长快速的数据查询，所以需要将Hive处理后的数据存放到支持快速查询的产品中，如Presto、Impala、ClickHouse等。术业有专攻，一个产品一定有自己的适用领域，如果用在不合适的场景，会造成资源浪费。

全局排序思路

如果在数据处理过程中必须要用到全局排序，则最好使用UDF转换为局部排序。实现思路为：先预估数据范围，假设这里数据范围是0-100，然后在每个Map作业中，使用Partitioner对数据进行自定义分发，0-10的数据分发到一个Reduce中，10-20的到一个Reduce中，依次类推，然后在每个Reduce作业中进行局部排序即可。

全局排序优化

但一般而言，对全量数据进行全局排序的场景很少，一般只需要保证查询结果最终有序即可，这时可以先使用子查询得到一个小的结果集，然后再进行排序。

select * from 
(select id,count(1) cnt from <table_name> where id!='0' group by user_id) a 
order by a.cnt;

如果是取TOP N的情况，则可以使用子查询，在每个Reduce中进行排序后，各自取得前N个数据，然后再对结果集进行全局排序，最终取得结果。

--从表中获取name长度为TOP10的数据
select a.id,a.name from 
(
 select id,name  from <table_name>  
 distribute by length(name)  sort by length(name) desc limit 10
 ) a 
 order by length(a.user_name) desc limit 10;