Spark RDD的高级算子

最新推荐文章于 2021-05-19 23:35:29 发布

故明所以

最新推荐文章于 2021-05-19 23:35:29 发布

阅读量263

点赞数

分类专栏： Spark 文章标签： spark 大数据

本文链接：https://blog.csdn.net/weixin_43520450/article/details/106042155

版权

Spark 专栏收录该内容

46 篇文章 4 订阅

订阅专栏

一、mapPartitionsWithIndex

把每个partition中的分区号和对应的值拿出来
在这里插入图片描述
接收一个函数参数：

第一个参数：分区号
第二个参数：分区中的元素

示例：将每个分区中的元素和分区号打印出来。

val rdd1 = sc.parallelize(List(1,2,3,4,5,6,7,8,9), 2)

创建一个函数返回RDD中的每个分区号和元素：

def func1(index:Int, iter:Iterator[Int]):Iterator[String] ={

   iter.toList.map( x =>"[PartID:" + index + ", value=" + x + "]").iterator

}

调用：

rdd1.mapPartitionsWithIndex(func1).collect

在这里插入图片描述

二、aggregate

先对局部聚合，再对全局聚合
在这里插入图片描述

示例：val rdd1 = sc.parallelize(List(1,2,3,4,5),2)

（1）查看每个分区中的元素：
在这里插入图片描述
（2）将每个分区中的最大值求和，注意：初始值是0；

如果初始值时候10，则结果为：30

（3）如果是求和，注意：初始值是0：

如果初始值是10，则结果是：45

（4）一个字符串的例子：

val rdd2 = sc.parallelize(List("a","b","c","d","e","f"),2)

修改一下刚才的查看分区元素的函数

def func2(index: Int, iter: Iterator[(String)]) : Iterator[String] =
{
 iter.toList.map(x =>"[partID:" +  index + ",val: " + x + "]").iterator
}

两个分区中的元素：

[partID:0, val: a], [partID:0, val: b], [partID:0, val: c], 
[partID:1, val: d], [partID:1, val: e], [partID:1, val: f]

运行结果：
在这里插入图片描述
（5）更复杂一点的例子：

val rdd3 = sc.parallelize(List("12","23","345","4567"),2)
rdd3.aggregate("")((x,y) => math.max(x.length, y.length).toString, (x,y) => x + y)

结果可能是：”24”，也可能是：”42”

val rdd4 = sc.parallelize(List("12","23","345",""),2)
rdd4.aggregate("")((x,y) => math.min(x.length, y.length).toString, (x,y) => x + y)

结果是：”10”，也可能是”01”，
原因：注意有个初始值””，其长度0，然后0.toString变成字符串

val rdd5 = sc.parallelize(List("12","23","","345"),2)
rdd5.aggregate("")((x,y) => math.min(x.length, y.length).toString, (x,y) => x + y)

结果是：”11”，原因同上

三、aggregateByKey

（1）准备数据

val pairRDD = sc.parallelize(List(("cat",2), ("cat", 5), ("mouse",
4),("cat", 12), ("dog", 12), ("mouse", 2)), 2)

def func3(index: Int, iter: Iterator[(String, Int)]) : Iterator[String] = {

 iter.toList.map(x => "[partID:" +  index + ", val: " + x + "]").iterator

}

（2）两个分区中的元素
在这里插入图片描述
（3）示例

将每个分区中的动物最多的个数求和：

scala> pairRDD.aggregateByKey(0)(math.max(_, _), _ + _).collect
res69: Array[(String, Int)] = Array((dog,12), (cat,17), (mouse,6))

将每种动物个数求和：

scala> pairRDD.aggregateByKey(0)(_+_, _ + _).collect
res71: Array[(String, Int)] = Array((dog,12), (cat,19), (mouse,6))

这个例子也可以使用：reduceByKey

scala> pairRDD.reduceByKey(_+_).collect
res73: Array[(String, Int)] = Array((dog,12), (cat,19), (mouse,6))

四、coalesce与repartition

（1）相同点：都是将RDD中的分区进行重分区。

（2）区别是：coalesce默认不会进行shuffle（false）；而repartition会进行shuffle（true），即：会将数据真正通过网络进行重分区。

（3）示例：

def func4(index: Int, iter: Iterator[(Int)]) : Iterator[String] = {
 iter.toList.map(x =>"[partID:" +  index + ",val: " + x + "]").iterator
}

val rdd1 = sc.parallelize(List(1,2,3,4,5,6,7,8,9), 2)

下面两句话是等价的：
val rdd2 = rdd1.repartition(3)
val rdd3 = rdd1.coalesce(3,true) --->如果是false，查看RDD的length依然是2

五、其它高级算子

链接：http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html

故明所以

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark RDD的高级算子

一、mapPartitionsWithIndex把每个partition中的分区号和对应的值拿出来接收一个函数参数：第一个参数：分区号第二个参数：分区中的元素示例：将每个分区中的元素和分区号打印出来。val rdd1 = sc.parallelize(List(1,2,3,4,5,6,7,8,9), 2)创建一个函数返回RDD中的每个分区号和元素：def func1(index:Int, iter:Iterator[Int]):Iterator[String] ={ iter.
复制链接

扫一扫