spark中mapPartitionsWithIndex高级算子和aggregate高级算子

美图欣赏:

一.spark中高级算子:

比较复杂,功能是比较丰富

mapPartitionsWithIndex对RDD的每个分区操作,可以获取到分区号

scala> def fun1(index:Int,itea:Iterator[Int]):Iterator[String] = {
     | itea.toList.map(x => "[partid:" + index +", value="+x+"]" ).iterator
     | }
fun1: (index: Int, itea: Iterator[Int])Iterator[String]

scala> rdd1.mapPartitions
mapPartitions   mapPartitionsWithIndex

scala> rdd1.mapPartitionsWithIndex(fun1).collect
res3: Array[String] = Array(
    [partid:0, value=1], [partid:0, value=2], [partid:0, value=3], 
    [partid:1, value=4], [partid:1, value=5], [partid:1, value=6], 
    [partid:2, value=7], [partid:2, value=8], [partid:2, value=9])

aggregate:聚合

先局部聚合,然后全局聚合

求每个分区的最大值,然后求和

现求每个分区的最大值

求和

zeroValue: U:初始化,需要赋值:初始值在局部操作起作用,全局操作也起作用

后面两个函数参数

第一个函数:表示局部操作

第二个:表示全局操作
 

scala> var rdd1 = sc.parallelize(List(1,2,3,4,5),2)
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[4] at parallelize at <console>:24

scala> rdd1.mapPartitionsWithIndex(fun1).collect
res4: Array[String] = Array(
    [partid:0, value=1], [partid:0, value=2],
    [partid:1, value=3], [partid:1, value=4], [partid:1, value=5])

scala> rdd1.aggregate(0)(max(_,_),_+_)
res5: Int = 7
scala> rdd1.aggregate(10)(max(_,_),_+_)
res6: Int = 30
//第一个分区数据:10(初始值),1,2————10
//第二个分区:10(初始值),3,4,5————10
//求和:10(初始值)+10+10=30

//第一个分区的最大值:2
//二:5
//求和:2+5=7

scala> rdd1.aggregate(0)(_+_,_+_)
res7: Int = 15

scala> rdd1.aggregate(10)(_+_,_+_)
res8: Int = 45

//第一个分区:10+1+2=3
//第二个分区:10+3+4+5=12
//求和:10+3+12=15

 

                                                                                                                                                ————保持饥饿,保持学习

                                                                                                                                                                   Jackson_MVP

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

SuperBigData~

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值