spark中mapPartitionsWithIndex高级算子和aggregate高级算子

最新推荐文章于 2022-02-02 17:31:13 发布

SuperBigData~

最新推荐文章于 2022-02-02 17:31:13 发布

阅读量575

点赞数 1

分类专栏： # 2.Spark

本文链接：https://blog.csdn.net/Jackson_mvp/article/details/104100410

版权

2.Spark 专栏收录该内容

43 篇文章 1 订阅

订阅专栏

美图欣赏：

一.spark中高级算子：

比较复杂，功能是比较丰富

mapPartitionsWithIndex对RDD的每个分区操作，可以获取到分区号

scala> def fun1(index:Int,itea:Iterator[Int]):Iterator[String] = {
     | itea.toList.map(x => "[partid:" + index +", value="+x+"]" ).iterator
     | }
fun1: (index: Int, itea: Iterator[Int])Iterator[String]

scala> rdd1.mapPartitions
mapPartitions   mapPartitionsWithIndex

scala> rdd1.mapPartitionsWithIndex(fun1).collect
res3: Array[String] = Array(
    [partid:0, value=1], [partid:0, value=2], [partid:0, value=3], 
    [partid:1, value=4], [partid:1, value=5], [partid:1, value=6], 
    [partid:2, value=7], [partid:2, value=8], [partid:2, value=9])

aggregate：聚合

先局部聚合，然后全局聚合

求每个分区的最大值，然后求和

现求每个分区的最大值

求和

zeroValue: U：初始化，需要赋值：初始值在局部操作起作用，全局操作也起作用

后面两个函数参数

第一个函数：表示局部操作

第二个：表示全局操作

scala> var rdd1 = sc.parallelize(List(1,2,3,4,5),2)
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[4] at parallelize at <console>:24

scala> rdd1.mapPartitionsWithIndex(fun1).collect
res4: Array[String] = Array(
    [partid:0, value=1], [partid:0, value=2],
    [partid:1, value=3], [partid:1, value=4], [partid:1, value=5])

scala> rdd1.aggregate(0)(max(_,_),_+_)
res5: Int = 7
scala> rdd1.aggregate(10)(max(_,_),_+_)
res6: Int = 30
//第一个分区数据：10（初始值），1，2————10
//第二个分区：10（初始值），3，4，5————10
//求和：10（初始值）+10+10=30

//第一个分区的最大值：2
//二：5
//求和：2+5=7

scala> rdd1.aggregate(0)(_+_,_+_)
res7: Int = 15

scala> rdd1.aggregate(10)(_+_,_+_)
res8: Int = 45

//第一个分区：10+1+2=3
//第二个分区：10+3+4+5=12
//求和：10+3+12=15

————保持饥饿，保持学习

Jackson_MVP