Hive 的 distribute by

最新推荐文章于 2024-07-29 09:03:07 发布

a1a2a3a4

最新推荐文章于 2024-07-29 09:03:07 发布

阅读量640

点赞数

分类专栏： hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a1a2a3a4/article/details/40454863

版权

hive 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

Order by 能够预期产生完全排序的结果，但是它是通过只用一个reduce来做到这点的。所以对于大规模的数据集它的效率非常低。在很多情况下，并不需要全局排序，此时可以换成Hive的非标准扩展sort by。Sort by为每个reducer产生一个排序文件。在有些情况下，你需要控制某个特定行应该到哪个reducer，通常是为了进行后续的聚集操作。Hive的distribute by 子句可以做这件事。

[sql] view plain copy print ?

// 根据年份和气温对气象数据进行排序，以确保所有具有相同年份的行最终都在一个reducer分区中
From record2
select year, temperature
distribute by year
sort by year asc, temperature desc;

因此，distribute by 经常和 sort by 配合使用。

原理：Order by 是将所有的数据一起排序，就是将所有的数据都放到一个reduce中操作，这样对于不需要精确排序且又是大数据集合就很不适合。

所以，我们需要将大数据集合进行分组，而distribute by 就是指定那一个或几个字段作为分组字段，就是划分reduce的数据的依据字段。

这样的结果就是distribute by 的字段会保证全局的排序正确，而sort by 中出现但在distribute by中没有出现的数据，只能保证局部有序，全局不一定。

以上，原理要在数据去重当中格外小心。可能会出现由于执行环境的不同，造成执行计划不同，从而造成有时候可以去重，有时候不能去重的诡异现象。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。