Spark Action算子

最新推荐文章于 2025-05-14 04:00:00 发布

原创最新推荐文章于 2025-05-14 04:00:00 发布 · 569 阅读

0 ·

CC 4.0 BY-SA版权

Spark基础专栏收录该内容

17 篇文章

订阅专栏

本文详细介绍了RDD的基本操作，包括collect、count、first等方法的应用，并解释了reduce、aggregate和fold等功能的实现原理及其区别。此外还提供了如何将RDD数据存储为不同文件格式的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

collect() 在驱动程序中，以数组的形式返回数据集的所有元素返回单机的Scala Array数组。

count() 返回RDD的元素个数 first 返回RDD的第一个元素（类似于take(1)）

take(n) 返回一个由数据集的前n个元素组成的数组

takeSample(withReplacement,num, [seed]) 返回从数据集中随机采样的num个元素组成的数组

takeOrdered(n) 返回前几个的排序

reduce

// reduce 通过function函数聚集RDD中的所有元素，这个功能必须是可交换且可并联的。
val reduceRdd1 = sc.makeRDD(1 to 10, 2)
reduceRdd1.reduce(_ + _)
val reduceRdd2 = sc.makeRDD(Array(("a", 1), ("a", 3), ("c", 3), ("d", 5)))
//(aacd,12)
reduceRdd2.reduce((x, y) => (x._1 + y._1, x._2 + y._2))

aggregate 与 folder

//aggregate (zeroValue: U)(seqOp: (U, T) ⇒ U, combOp: (U, U) ⇒ U)
// aggregate函数将每个分区里面的元素通过seqOp和初始值进行聚合，然后用combine函数将每个分区的结果和初始值(zeroValue)进行combine操作。这个函数最终返回的类型不需要和RDD中元素类型一致。

    val rdd1 = sc.makeRDD(1 to 10, 2)
    // 30361
    rdd1.aggregate(1)(
      { (x: Int, y: Int) => x * y },
      { (a: Int, b: Int) => a + b }
    )
    // fold折叠操作  aggregate的简化操作

var rdd2 = sc.makeRDD(1 to 4,2)

    rdd2.aggregate(1)(
       {(x : Int,y : Int) => x + y},
       {(a : Int,b : Int) => a + b}
         )

//等价于rdd1.fold(1)(_+_)

存储为文件算子

saveAsTextFile(path)  将数据集的元素以textfile的形式保存到HDFS文件系统或者其他支持的文件系统，对于每个元素，Spark将会调用toString方法，将它装换为文件中的文本
saveAsSequenceFile(path)   将数据集中的元素以Hadoop sequencefile的格式保存到指定的目录下，可以使HDFS或者其他Hadoop支持的文件系统。
saveAsObjectFile(path)    用于将RDD中的元素序列化成对象，存储到文件中。

countByKey() 针对(K,V)类型的RDD，返回一个(K,Int)的map，表示每一个key对应的元素个数。

foreach(func) 在数据集的每一个元素上，运行函数func进行更新。