Spark常用RDD算子总结

最新推荐文章于 2024-01-16 14:03:30 发布

Jiede1

最新推荐文章于 2024-01-16 14:03:30 发布

阅读量862

点赞数

分类专栏： spark 大数据文章标签： Spark 大数据

本文链接：https://blog.csdn.net/jiede1/article/details/102299043

版权

本文总结了Spark中常用的RDD算子，包括非Key-Value型的map、flatMap、mapPartitions、union、cartesian、groupBy、sortBy、sample和cache等，并介绍了Key-Value转换操作如join、groupByKey、reduceByKey和mapValues，是Spark学习者的实用参考。

摘要由CSDN通过智能技术生成

spark的算子比较多，但只有部分是常用的，特此记录下来，如需补充更多算子，请在评论留言。

常见RDD算子（非Key-Vaue型）

map
map作用在RDD分区的每一个元素上

scala> val nums=sc.parallelize(List(1,2,3))
nums: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[64] at parallelize at <console>:24

scala> nums.collect()
res43: Array[Int] = Array(1, 2, 3)

scala> nums.map
   def map[U](f: Int => U)(implicit evidence$3: scala.reflect.ClassTag[U]): org.apache.spark.rdd.RDD[U]

scala> nums.map(x=>x+1).collect()
res45: Array[Int] = Array(2, 3, 4)

flatmap
和map类似，但多了flat操作。其内部实现为，先对数据进行map操作，返回List或Seq，然后对返回的List(Seq)进行拍扁操作，形成一个大List。

scala> val ff=sc.parallelize(Array((1,2),(3,4),(5,6)))
ff: org.apache.spark.rdd.RDD[(Int, Int)] = ParallelCollectionRDD[71] at parallelize at <console>:24

scala> ff.flatMap(x=>Seq(x._1)).collect()
res67: Array[Int] = Array(1, 3, 5)

mapPartitions
操作对象为整个分区。通过获取分区的迭代器，在函数中通过这个分区整体的迭代器进行操作。

scala>  val a = sc.parallelize(1 to 10, 3)
a: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[99] at parallelize at <console>:24

scala> a.collect()
res84: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)

scala>  def myfuncPerElement(e:Int):Int = {
     | 
     |            println("e="+e)
     | 
     |            e*2
     | 
     |       }
myfuncPerElement: (e: Int)Int

scala> def myfuncPerPartition ( iter : Iterator [Int] ) : Iterator [Int] = {
     | 
     |          pri

最低0.47元/天解锁文章

Jiede1

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark常用RDD算子总结

spark的算子比较多，但只有部分是常用的，特此记录下来，如需补充更多算子，请在评论留言。常见RDD算子（非Key-Vaue型）mapmap作用在RDD分区的每一个元素上scala> val nums=sc.parallelize(List(1,2,3))nums: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[...
复制链接

扫一扫

专栏目录