Spark算子[02]：coalesce，repartition

最新推荐文章于 2024-07-03 07:15:00 发布

生命不息丶折腾不止

最新推荐文章于 2024-07-03 07:15:00 发布

阅读量1k

点赞数

分类专栏： spark 文章标签： spark 源码合并

本文链接：https://blog.csdn.net/leen0304/article/details/78656269

版权

本文详细解析Spark中coalesce和repartition算子的源码及应用场景。coalesce用于减少分区，避免shuffle，提高效率；repartition在需要均匀分布数据时使用，可能导致shuffle。总结了何时使用coalesce进行优化，并指出在特定条件下，coalesce增加分区无效且可能影响性能。

摘要由CSDN通过智能技术生成

概述

coalesce与repartition都是RDD的分区进行重新划分，repartition只是coalesce接口中shuffle为true的简易实现；
当spark程序中，存在过多的小任务的时候，可以通过 RDD.coalesce方法，收缩合并分区，减少分区的个数，减小任务调度成本，避免Shuffle导致，这比使用RDD.repartition效率提高不少。

源码解析

coalesce源码

  /**
   * 返回一个新的RDD，它将分区个数减少到“numPartitions”个分区。
   * 这是一个窄依赖操作；
   * 如果从1000个分区合并成100各分区，将不会有Shuffle操作，100个新分区中的每一个将占据当前分区的10个。
   * 如果要求更多的分区个数，将保持为当前的分区个数。
   *
   * 但是，当我们进行一个剧烈的合并，设置numPartitions = 1
   * 这可能导致你的计算比你想要的节点少，当numPartitions = 1时，只会在一个节点上合并;
   * 为了避免这种情况的发生，可以设置shuffle = true，这样将会添加一个shuffle操作，
   * 意味着当前的上游partitions将并行执行，无论当前的分区是几个
   *
   * @note
   * 当shuffle = true，实际上，你可以合并到更多的分区。
   * 如果您有少量的分区，比如100个，可能有几个分区异常大，这个时候这种方法很有用。
   * 调用 coalesce(1000,shuffle = true) 将会生成1000个分区，数据分布使用散列分区（hash partitioner）。
   * 可选分区合并器必须是可序列化的。
   */

  def coalesce(numPartitions: Int, shuffle: Boolean = false,
               partitionCoalescer: Option[