Spark中对分区编号的操作

QYHuiiQ

已于 2022-10-19 21:31:33 修改

阅读量388

点赞数

分类专栏：大数据之Spark 文章标签： spark 大数据分布式

于 2022-10-19 21:23:14 首次发布

本文链接：https://blog.csdn.net/qyhuiiq/article/details/127416242

版权

大数据之Spark 专栏收录该内容

19 篇文章 0 订阅 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

本文详细介绍了在Spark中如何对数据进行分区编号，通过两个测试案例，展示了具体的运行结果，揭示了Spark在大数据处理中的分布式计算特性。

摘要由CSDN通过智能技术生成

Test 1：

package test.wyh.wordcount

import org.apache.spark.{SparkConf, SparkContext}

object TestMapIndex {
  def main(args: Array[String]): Unit = {

    //建立Spark连接
    val sparkConf = new SparkConf().setMaster("local").setAppName("TestIndexPartitionApp")
    val sc = new SparkContext(sparkConf)

    val rdd = sc.makeRDD(List(1, 2, 3, 4), 2)

    val indexRDD = rdd.mapPartitionsWithIndex(
      (index, iter) => {
        //如果是第二个分区的，输出数据（分区编号从0开始）
        if (index == 1) {
          //返回迭代器
          iter
        } else {
          //否则返回空迭代器
          Nil.iterator
        }
      }
    )

    indexRDD.collect().foreach(println)
    //关闭连接
    sc.stop()

  }

}

了解本专栏