Hive —【order by/sort by】

最新推荐文章于 2024-07-14 09:02:56 发布

做一只精致IT小白

最新推荐文章于 2024-07-14 09:02:56 发布

阅读量498

点赞数

分类专栏：数据仓库调优 Hive 文章标签： hive big data 大数据

本文链接：https://blog.csdn.net/weixin_42969976/article/details/109610574

版权

数据仓库同时被 3 个专栏收录

14 篇文章 0 订阅

订阅专栏

调优

4 篇文章 0 订阅

订阅专栏

Hive

3 篇文章 0 订阅

订阅专栏

Order by

Order by会对输入做全局排序，因此只有一个reduce（多个reduce无法保证全局有序）
只有一个reduce，会导致当前输入规模较大时，需要较长的计算时间。
Set hive.mapred.mode=nonstrict;(default value/默认值)
Set hive.mapred.mode=strict;
Order by 和数据库中的order by功能一致，按照某一项&几项排序输出。与数据库中的order by的区别在于hive.mapred.mode=strict模式下必须指出limit 否则执行会出错。原因是：所有的数据都是在一个reducer端进行，数据量大的情况下可能不能得出结果，那么在这样的严格模式下，必须指定输出的条数。
Eg： hive> select * from test order by id limit n; n可以任意指定

Sort by

Sort by 不是全局排序，其在数据进入reduce前完成排序。因此，如果用sort by进行排序，并且设置mapred.reduce.tasks>1，则sort by只保证每个reducer的输出有序，不保证全局有序，除非只有一个reducer。好处是：执行了局部排序之后可以为接下去的全局排序提高不少的效率（其实就是做一次归并排序就可以做到全局排序了）。
sort by 不受 hive.mapred.mode 是否为strict ,nostrict 的影响
sort by 的数据只能保证在同一reduce中的数据可以按指定字段排序。
使用sort by 你可以指定执行的reduce 个数（set mapred.reduce.tasks=）,对输出的数据再执行归并排序，即可以得到全部结果。
注意：可以用limit子句大大减少数据量。使用limit n后，传输到reduce端（单机）的数据记录数就减少到n* （map个数）。否则由于数据过大可能出不了结果。

Distribute by和sort by一起使用

Distribute by是控制map的输出在reducer是如何划分的。按照指定的字段对数据进行划分到不同的输出reduce / 文件中。举个列子，我们有一张表，mid是指这个store所属的商户。Store表如下
Mid Money Name
AA 15 商1
AA 20 商2
BB 22 商3
CC 44 商4

执行hql语句：
select mid，money，name from store distribute by mid sort by mid asc，money asc；
我们所有的mid相同的数据会被送到同一个reducer去处理，这就是因为指定了distribute by mid，这样的话就可以统计出每个商户中各个商店盈利的顺序了（这个肯定是全局有序的，因为相同的商户会放到同一个reduce去处理）。这里需要注意的是distribute by 必须要写在sort by 之前。

Cluster by

Cluster by的功能就是distribute by和sort by相结合，如下2个等价语句：
hive：select mid ,money,name from store cluster by mid;
hive:select mid ,money,name from store distribute by mid sort by mid;

做一只精致IT小白

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hive —【order by/sort by】

Order byOrder by会对输入做全局排序，因此只有一个reduce（多个reduce无法保证全局有序）只有一个reduce，会导致当前输入规模较大时，需要较长的计算时间。Set hive.mapred.mode=nonstrict;(default value/默认值)Set hive.mapred.mode=strict;Order by 和数据库中的order by功能一致，按照某一项&几项排序输出。与数据库中的order by的区别在于hive.mapred.mode=
复制链接

扫一扫

专栏目录