重新分区算子coalesce和repartition

最新推荐文章于 2024-07-18 11:26:53 发布

永不落后于人

最新推荐文章于 2024-07-18 11:26:53 发布

阅读量553

点赞数

分类专栏： spark 文章标签： spark 重新分区 coalesce repartition

本文链接：https://blog.csdn.net/FlatTiger/article/details/115053097

版权

spark 专栏收录该内容

45 篇文章 5 订阅

订阅专栏

coalesce

说明

包括shuffle和不发生shuffle两种方式。
主要用于缩减分区，大数据集过滤后，提高小数据集的执行效率。

函数签名

在这里插入图片描述

代码示例

    val conf: SparkConf = new SparkConf().setAppName(this.getClass.getName).setMaster("local[*]")
    val sc = new SparkContext(conf)
    val rdd: RDD[Int] = sc.makeRDD(1 to 10, 3)
    println("-----------------分区前--------------------")
    rdd.mapPartitionsWithIndex{
      (index, datas) => {
        println(index + "--->" + datas.mkString(","))
        datas
      }
    }.collect()
    println("-----------------分区后--------------------")
    //shuffle参数默认为false，此时缩减分区有效
    /*val newRDD: RDD[Int] = rdd.coalesce(2)
    newRDD.mapPartitionsWithIndex{
      (index, datas) => {
        println(index + "--->" + datas.mkString(","))
        datas
      }
    }.collect()*/
    //shuffle参数默认值为false，此时增大分区数无效，还是原来的分区数
    val newRDD: RDD[Int] = rdd.coalesce(4)
    newRDD.mapPartitionsWithIndex{
      (index, datas) => {
        println(index + "--->" + datas.mkString(","))
        datas
      }
    }.collect()

    sc.stop()

repartition

说明

底层调用的其实是coalesce，但是会发生shuffle。无论是分区数减少的操作，还是分区数增加的操作，repartition都能完成。

函数签名

在这里插入图片描述

代码示例

    val conf: SparkConf = new SparkConf().setAppName(this.getClass.getName).setMaster("local[*]")
    val sc = new SparkContext(conf)
    val rdd: RDD[Int] = sc.makeRDD(1 to 10, 2)
    println("-----------------分区前--------------------")
    rdd.mapPartitionsWithIndex{
      (index, datas) => {
        println(index + "--->" + datas.mkString(","))
        datas
      }
    }.collect()
    println("-----------------分区后--------------------")
    val newRDD: RDD[Int] = rdd.repartition(3)
    newRDD.mapPartitionsWithIndex{
      (index, datas) => {
        println(index + "--->" + datas.mkString(","))
        datas
      }
    }.collect()
    sc.stop()