Spark coalesce算子

QYHuiiQ

已于 2022-10-25 20:49:33 修改

阅读量763

点赞数

分类专栏：大数据之Spark 文章标签： spark 大数据 scala

于 2022-10-25 19:52:38 首次发布

本文链接：https://blog.csdn.net/qyhuiiq/article/details/127519987

版权

大数据之Spark 专栏收录该内容

19 篇文章 0 订阅 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

本文详细介绍了Spark中的coalesce算子，通过多个测试案例展示其在缩减和增大分区时的行为。默认情况下，coalesce不会打乱原有分区数据，可能导致数据倾斜。通过设置shuffle参数为true，可以实现数据重新组合，从而达到数据均衡。同时，对比了repartition在扩大分区个数上的优势。

摘要由CSDN通过智能技术生成

缩减分区

Test 1：

package test.wyh.wordcount

import org.apache.spark.{SparkConf, SparkContext}

object TestCoalEsce {
  def main(args: Array[String]): Unit = {

    //建立Spark连接
    val sparkConf = new SparkConf().setMaster("local").setAppName("TestWordCountApp")
    val sc = new SparkContext(sparkConf)
    //原本4个分区
    val rdd = sc.makeRDD(List(1, 2, 3, 4), 4)
    //缩减为两个分区
    val coalesceRDD = rdd.coalesce(2)
    coalesceRDD.saveAsTextFile("output")

    //关闭连接
    sc.stop()

  }

}

运行结果：

原来RDD中的前两个元素被分到了一个分区，后两个元素被分到了一个分区。