hive中的order by+sort by+distribute by+cluster by

最新推荐文章于 2024-07-14 09:02:56 发布

randee_luo

最新推荐文章于 2024-07-14 09:02:56 发布

阅读量1.1k

点赞数

分类专栏： hive 文章标签： hive排序 hive order by sort by distribute by

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jxlhc09/article/details/17551055

版权

hive 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

order by

它会对输出数据做全局排序，因此在order by 过程中会将所有数据放入一个reduce(如果是多个reduce的话则不能保证order by 后数据是有序的)，当数据量大时，一个reduce的处理压力就成了问题。

当 set hive.mapred.mode=nonstrict (默认值)时，hive会正常处理order by 。

当 set hive.mapred.mode=strict 时，则在使用order by 时需加上 limit 进行输出限制，否则会报错。

所以在使用order by 的时候，最好是加上limit进行输入结果限制，这是个好习惯，同时也可以减少一个reduce的输出压力。

支持: asc/desc

注意：当 set hive.mapred.mode=strict后，会影响到以下的查询：1，查询分区表必须指定相应分区否则会报错；2，执行笛卡尔积会报错。

sort by

会对输出结果局部排序，其在数据进入reducer前完成排序。

因此，如果用sort by进行排序，并且设置mapred.reduce.tasks>1，则sort by只保证每个reducer的输出有序，不保证全局有序。
sort by 不受 hive.mapred.mode 是否为strict ,nostrict 的影响
sort by 的数据只能保证在同一reduce中的数据可以按指定字段排序。
使用sort by 你可以指定执行的reduce 个数（set mapred.reduce.tasks=<number>）,对输出的数据再执行归并排序，即可以得到全部结果。

支持：asc/desc
注意：可以用limit子句大大减少数据量。使用limit n后，传输到reduce端（单机）的数据记录数就减少到n* （map个数）。否则由于数据过大可能出不了结果。

distribute by

会按指定的字段，将数据划分到不同的reduce。也就是相当于mapreduce过程中的partition。

select classid,name from users distribute by classid ; 会将相同的classid划分到同一个reduce中，同一个reduce可以有多个不同classid的值。

注意：可以用distribute by + sort by 取代order by (但是无法全局排序)，这也是一种优化手段。

cluster by

cluster by 除了具有 distribute by 的功能外还兼具 sort by 的功能。
但是排序只能是倒序排序，不能指定排序规则为asc 或者desc。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hive中的order by+sort by+distribute by+cluster by

order by 它会对输出数据做全局排序，因此在order by 过程中会将所有数据放入一个reduce(如果是多个reduce的话则不能保证order by 后数据是有序的)，当数据量大时，一个reduce的处理压力就成了问题。当 set hive.mapred.mode=nonstrict (默认值)时，hive会正常处理order by 。当 set hive.mapred.
复制链接

扫一扫

专栏目录

randee_luo CSDN认证博客专家 CSDN认证企业博客

码龄16年

23: 原创

30万+: 周排名

131万+: 总排名

5万+: 访问

: 等级

800: 积分

21: 粉丝

9: 获赞

11: 评论

15: 收藏

私信

关注

热门文章

分类专栏

hadoop 5篇
hive 15篇
sqoop 2篇
数据仓库 5篇
linux 2篇
mongoDB 6篇

最新评论

hadoop配置fair-scheduler的方法
做个有脑子的人: 博主为什么我找不到fair-schedule.xml文件呢
SQOOP 解决import时字段为NULL值的情况
TianYSJ: 从hive到mysql时，如果mysql里有非空约束，hive值为null肿么办？
SQOOP 解决import时字段为NULL值的情况
SanshZ: 在嘛，兄台！求教个问题，转变以后如果要导出怎么将hive中的NULL 转变成mysql的null呢不转的话，到不进去啊请指教
升级hive-0.11后报java.lang.InstantiationException: org.antlr.runtime.CommonToke
talentL: 上面说的是可以解决的，你把每条查询语句前都加让那条语句，用vim写成.sql文件，直接运行分拣就好了，就不用每次都打了
升级hive-0.11后报java.lang.InstantiationException: org.antlr.runtime.CommonToke
jengy: https://issues.apache.org/jira/i#browse/HIVE-3739

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。