[scala-spark]10. RDD转换操作

最新推荐文章于 2024-07-16 22:38:10 发布

沈子恒

最新推荐文章于 2024-07-16 22:38:10 发布

阅读量2.3k

点赞数

分类专栏： Scala/Spark

本文链接：https://blog.csdn.net/shenziheng1/article/details/101179582

版权

本文详细介绍了Spark中的RDD转换操作，包括map、flatMap、filter、mapPartitions、mapPartitionsWithIndex、sample、union、intersection、distinct、groupByKey、reduceByKey、sortByKey、aggregateByKey、combineByKey、join、pipe、subtract、zip以及重分区操作coalesce和repartition。这些操作是RDD处理数据的核心方法，用于数据转换和处理。

摘要由CSDN通过智能技术生成

RDD提供了一组非常丰富的操作来操作数据，如：map,flatMap,filter等转换操作，以及SaveAsTextFile,conutByKey等行动操作。这里仅仅综述了转换操作。

map是对RDD中的每一个元素都执行一个指定的函数来产生一个新的RDD，RDD之间的元素是一对一的关系。

val rdd1: RDD[Int] = sc.parallelize(1 to 9, 3)
val rdd2: RDD[Int] = rdd1.map(_ * 2)
printResult("map", rdd2)
// 结果：map >> List(2, 4, 6, 8, 10, 12, 14, 16, 18)

flapMap

flatMap类似于map，但是每一个输入元素，会被映射为0到多个出输出元素(即func函数的返回值是一个Seq,而不是单一元素)的新的RDD，RDD之间的元素是一对多关系。


val rdd3: RDD[Int] = rdd2.filter(x => x > 10).flatMap(x => x to 21)
printResult("flatMap", rdd3)
// 结果：flatMap >> List(12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 
14, 15, 16, 17, 18, 19, 20, 21, 
16, 17, 18, 19, 20, 21, 
18, 19, 20, 21)

filter

filter是对RDD元素进行过滤，返回一个新的数据集，有经过func函数后返回值为true的元素组成。

val rdd4 = rdd2.filter(x => x > 11)
printResult("filter", rdd4)
// 结果：filter >> List(12, 14, 16, 18)

mapPartitions

mapPartitions是map的一个变种。map的输入函数应用于RDD中的每一个元素，而mapPartitions的输入函数应用于每一个分区的数据，也就是把每一个分区中的内容作为整体来处理。

函数定义：

 def mapPartitions[U: ClassTag](f: Iterator[T] => Iterator[U],preservesPartitioning: Boolean = false): RDD[U]


val rdd5: RDD[(Int, Int)] = rdd1.repartition(2).mapPartitions((iter: Iterator[Int]) => {
val lst: ListBuffer[(Int, Int)] = new ListBuffer[(Int, Int)]()
var prev: Int = 0
var current: Int = 0
 while (iter.hasNext) {
     current = iter.next
     lst += ((prev, current))
     prev = current
     }
     lst.iterator
  })
printResult("mapPartitions", rdd5)
结果：mapPartitions >> L

最低0.47元/天解锁文章

沈子恒

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
[scala-spark]10. RDD转换操作

RDD提供了一组非常丰富的操作来操作数据，如：map,flatMap,filter等转换操作，以及SaveAsTextFile,conutByKey等行动操作。这里仅仅综述了转换操作。mapmap是对RDD中的每一个元素都执行一个指定的函数来产生一个新的RDD，RDD之间的元素是一对一的关系。val rdd1: RDD[Int] = sc.parallelize(1 to 9, 3)...
复制链接

扫一扫

专栏目录