Hive中4个By的区别

cluse_ld

已于 2022-08-14 16:39:14 修改

阅读量548

点赞数 1

分类专栏： hive 文章标签： hive hadoop 数据仓库

于 2022-08-14 16:37:18 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Laoddaaa/article/details/126332999

版权

hive 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

Order by

order by会对输入进行全局排序，因此只有一个Reducer（多个Reducer无法保证全局有序），然而只有一个Reducer会导致计算效率非常低，使用较少。事实上，在生产环境中，order by 很容易造成OOM。

Sort by

sort by不是全局排序，它会在数据进入Reducer之前完成排序。因此如果使用sort by进行排序，并且设置mapreduce.job.reduces多于一个，则sort by只会保证每个reducer的输出有序，不能保证全局有序。但是可以对最后的结果进行归并排序实现全局排序。

Distribute by

distribute by的作用是控制map端如何拆分数据给reduce端。hive会根据distribute by后面的字段，对reduce的个数进行分发，默认采用的是hash算法。sort by保证每个reduce内有序，因此distribute by经常和sort by配合使用。生产环境中 distribute by + sort by用的多。

Cluster by

当distribute by 和 sort by字段相同时，可以使用cluster by。
cluster by除了具有distribute by的功能外还兼具sort by的排序功能。但是排序只能是默认的升序，无法指定排序规则。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hive中4个By的区别

Hive中的4个By的作用和区别。
复制链接

扫一扫

专栏目录

cluse_ld CSDN认证博客专家 CSDN认证企业博客

码龄3年

187: 原创

33万+: 周排名

46万+: 总排名

5万+: 访问

: 等级

1898: 积分

8: 粉丝

21: 获赞

15: 评论

80: 收藏

私信

关注

热门文章

分类专栏

23春招复习 2篇
大数据面经 2篇
zookeeper 5篇
计算机网络 4篇
jdk 3篇
集合 3篇
LeetCode 27篇
spark 18篇
hive 10篇
MapReduce 5篇
JUC 15篇
JVM 1篇
剑指 Offer 60篇
scala 4篇
hbase 2篇
sqoop 1篇
kafka 8篇
flume 3篇
hadoop 4篇
Yarn 2篇
hdfs 5篇

最新评论

携程面经1
CSDN-Ada助手: Java 技能树或许可以帮到你：https://edu.csdn.net/skill/java?utm_source=AI_act_java
ArrayList和LinkedList的区别
CSDN-Ada助手: 不知道算法技能树是否可以帮到你：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm
同步锁的分类
路遥万里: 太全面了吧
CC23 最长的连续元素序列长度
cluse_ld: 你不是我第一个铁粉天理难容
CC23 最长的连续元素序列长度
路遥万里: 博主666

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。