repartition和coalesce区别

不会Hive的啊扬

已于 2024-04-26 17:57:31 修改

阅读量202

点赞数 3

文章标签：大数据

于 2024-04-15 20:47:34 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_70949976/article/details/137794640

版权

repartition：

用于增加或减少分区数量，可以指定新的分区数量。它会产生一个新的 Shuffle 过程，通常用于增加分区数量，进行更大规模的并行处理或者改变数据分布，以提高并行性能或者调整数据均衡性。

coalesce：

仅用于减少分区数量，不能增加分区数量。它合并现有分区以减少数据移动。因为它避免了数据的全局重排，所以相对于 repartition，coalesce 的性能更高

区别：

当减少分区数量时，如果有10个分区，然后使用 repartition(10)，则在这种情况下不会触发 Shuffle。因为原始的分区数是10，而想要的目标分区数是10，此时仅仅是一个元数据操作，而无需进行全局的数据重分布。所以在这种情况下，repartition(10) 不会触发 Shuffle 操作，和coalesce(10)一样

但如果repartion(5)时，就不一样了，repartition会重新打散分配，而coalesce(5)则还是会尽量将数据合并到指定数量的分区中

什么时候该用什么：

如果后续需要增大或减少分区，并且希望按照某一列进行分区，类似hive中DISTRIBUTE BY的功能，则只能使用repartion(10，"key")，而不能使用coalesce，因为其不能进行shuffle，按照某个key分区，不管增大还是减少分区数量，肯定都是需要重分区shuffle的，除非像前面的，本来就是按照key分区，又按key分区，还是分那么多数量的分区

如果后续只是减少输出文件数量，则应当使用coalesce，因为其性能更好

但coalesce也并不是万能的，例如：

读取大量数据简单的map处理(filter等操作)后直接落盘parquet文件，但我想让最终只输出一个文件，此时应该用repartition(1)，而非coalesce(1)，因为coalesce是不进行shuffle的，为了更快的合并文件，他甚至将读取文件的过程也变成了1个并行度，这显然是不合适的

不会Hive的啊扬

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
repartition和coalesce区别

spark中repartition和coalesce区别
复制链接

扫一扫

不会Hive的啊扬 CSDN认证博客专家 CSDN认证企业博客

码龄2年

29: 原创

131万+: 周排名

7万+: 总排名

2万+: 访问

: 等级

377: 积分

69: 粉丝

84: 获赞

3: 评论

134: 收藏

私信

关注

热门文章

最新评论

大数据之Kerberos认证
MS20HJ: 这个CAS认证协议没什么差
用shell脚本自动监测Kafka积压
CSDN-Ada助手: 云原生入门技能树或许可以帮到你：https://edu.csdn.net/skill/cloud_native?utm_source=AI_act_cloud_native
用shell脚本自动监测Kafka积压
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/613875484。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。