[Spark基础]--repartition vs coalesce

最新推荐文章于 2024-07-12 13:12:03 发布

往事随风ing

最新推荐文章于 2024-07-12 13:12:03 发布

阅读量1w

点赞数 4

分类专栏： Spark 文章标签： spark

本文链接：https://blog.csdn.net/high2011/article/details/78842739

版权

Spark 专栏收录该内容

133 篇文章 10 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

本文详细探讨了Spark中的repartition和coalesce的区别，包括它们在分区数量变化上的不同以及对性能的影响。repartition允许增减分区，涉及数据全量shuffle，而coalesce仅用于减少分区，避免数据移动。过多或过少的分区都会影响性能。合理设置分区数量，通常建议每个CPU核心有2-3个任务。文章提供了在Spark任务提交和transform算子中调整分区数的方法，并给出了相关参考资料。

摘要由CSDN通过智能技术生成

请记住，对您的数据进行重新分区是一个相当昂贵的操作。还好，Spark还有一个名为coalesce（）的repartition（）的优化版本，它允许避免数据移动，但只有在减少RDD分区的数量的时候使用。

一、repartition和coalesce区别

1、coalesce操作只能减少分区，它是使用现有分区来减少shuffer的数据量，在一些具体的情况下，我发现repartition比coalesce更快。
在我的应用程序中，当我们估计的文件数量低于一定的阈值时，重新分区工作会更快。

if(numFiles > 20)
    df.coalesce(numFiles).write.mode(SaveMode.Overwrite).parquet(dest)
else
    df.repartition(numFiles).write.mode(SaveMode.Overwrite).parquet(dest)

2、repartion操作可以增加分区，也可减少分区，它创建新的分区，进行完全的shuffer操作