普通RDD转PairRDD、groupByKey与ReduceByKey区别

最新推荐文章于 2024-07-25 09:26:43 发布

pub.ryan

最新推荐文章于 2024-07-25 09:26:43 发布

阅读量339

点赞数

分类专栏： Spark及源码

本文链接：https://blog.csdn.net/qq_36269641/article/details/111187690

版权

本文探讨了如何将普通RDD转换为PairRDD，并详细比较了groupByKey和reduceByKey在处理PairRDD时的区别，涉及数据聚合操作在Spark中的应用。

摘要由CSDN通过智能技术生成

1、rdd转PairRDD

package test.rddtest

import org.apache.spark.{SparkConf, SparkContext}

object RDD2PairRDDDemo {

    def myfunc1(index: Int, iter: Iterator[(String)]) : Iterator[String] = {
      iter.toList.map(x => "[partID:" +  index + ", val: " + x + "]").iterator
    }
    def myfunc2(index:Int,iter:Iterator[(Int,String)]):Iterator[String]={
      iter.toList.map(x => "[partID:" +  index + ", val: " + x + "]").iterator
    }
    def main(args: Array[String]) {
      val conf = new SparkConf().setAppName("pair RDD").setMaster("local")
      val sc = new SparkContext(conf)

      val SingleRDD = sc.parallelize(List("scala","python","java","Spark","hadoop"),2)
      SingleRDD.mapPartitionsWithIndex(myfunc1).collect.foreach(println)
      //[partID:0, val: scala]
      //[p