Spark——map和mapPartitions的区别

最新推荐文章于 2023-05-04 11:56:48 发布

throws-Exception

最新推荐文章于 2023-05-04 11:56:48 发布

阅读量114

点赞数

分类专栏： # Spark 零碎知识点文章标签： spark

本文链接：https://blog.csdn.net/Shemon_zjw/article/details/108753603

版权

Spark 零碎知识点专栏收录该内容

7 篇文章 0 订阅

订阅专栏

张三
李四
张三丰
李世民
张三

对名字做wordcount

	val spark: SparkSession = SparkSession.builder().master("local[2]").appName("mappartition").getOrCreate()
    val sc: SparkContext = spark.sparkContext
    import spark.implicits._
    val rdd: RDD[String] = sc.textFile("src/data/1234")

//map写法  将值全部拿出来处理
rdd.map(x=>(x.charAt(0),1)).reduceByKey(_+_).foreach(println)

//mapPartitions写法  将每个分区内的值分别进行统计 内部先统计一次 然后最后在统计 减少了数据的shuffle的过程
rdd.mapPartitions(f=>{
      val lst:ListBuffer[(Char,Int)] = ListBuffer[(Char,Int)]()
      while(f.hasNext){
        lst.append((f.next().charAt(0),1))
      }
      lst.groupBy(_._1).map(x=>(x._1,x._2.size)).toIterator
    }).foreach(println)

//mapPartitions的另一种写法
rdd.mapPartitions(x=>x.map(x=>(x.charAt(0),1)).toArray.groupBy(_._1).map(x=>(x._1,x._2.size)).toIterator)
      .reduceByKey(_+_).foreach(println)

优惠劵

throws-Exception

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark——map和mapPartitions的区别

张三李四张三丰李世民张三对名字做wordcount val spark: SparkSession = SparkSession.builder().master("local[2]").appName("mappartition").getOrCreate() val sc: SparkContext = spark.sparkContext import spark.implicits._ val rdd: RDD[String] = sc.textFile("sr
复制链接

扫一扫