美图欣赏:
一.spark中高级算子:
比较复杂,功能是比较丰富
mapPartitionsWithIndex对RDD的每个分区操作,可以获取到分区号
scala> def fun1(index:Int,itea:Iterator[Int]):Iterator[String] = {
| itea.toList.map(x => "[partid:" + index +", value="+x+"]" ).iterator
| }
fun1: (index: Int, itea: Iterator[Int])Iterator[String]
scala> rdd1.mapPartitions
mapPartitions mapPartitionsWithIndex
scala> rdd1.mapPartitionsWithIndex(fun1).collect
res3: Array[String] = Array(
[partid:0, value=1], [partid:0, value=2], [partid:0, value=3],
[partid:1, value=4], [partid:1, value=5], [partid:1, value=6],
[partid:2, value=7], [partid:2, value=8], [partid:2, value=9])
aggregate:聚合
先局部聚合,然后全局聚合
求每个分区的最大值,然后求和
现求每个分区的最大值
求和
zeroValue: U:初始化,需要赋值:初始值在局部操作起作用,全局操作也起作用
后面两个函数参数
第一个函数:表示局部操作
第二个:表示全局操作
scala> var rdd1 = sc.parallelize(List(1,2,3,4,5),2)
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[4] at parallelize at <console>:24
scala> rdd1.mapPartitionsWithIndex(fun1).collect
res4: Array[String] = Array(
[partid:0, value=1], [partid:0, value=2],
[partid:1, value=3], [partid:1, value=4], [partid:1, value=5])
scala> rdd1.aggregate(0)(max(_,_),_+_)
res5: Int = 7
scala> rdd1.aggregate(10)(max(_,_),_+_)
res6: Int = 30
//第一个分区数据:10(初始值),1,2————10
//第二个分区:10(初始值),3,4,5————10
//求和:10(初始值)+10+10=30
//第一个分区的最大值:2
//二:5
//求和:2+5=7
scala> rdd1.aggregate(0)(_+_,_+_)
res7: Int = 15
scala> rdd1.aggregate(10)(_+_,_+_)
res8: Int = 45
//第一个分区:10+1+2=3
//第二个分区:10+3+4+5=12
//求和:10+3+12=15
————保持饥饿,保持学习
Jackson_MVP