Spark-RDD-Action

最新推荐文章于 2024-05-23 10:59:51 发布

歆歆歆歆歆

最新推荐文章于 2024-05-23 10:59:51 发布

阅读量120

点赞数

分类专栏： spark 文章标签： RDD Action

本文链接：https://blog.csdn.net/liupinyang/article/details/86600850

版权

spark 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Spark-RDD-Action

1.1 Action

Action算子不会再转成RDD算子,而是转出结果,之前的collect算子就是Action算子

1.11 reduce(func) 案例

作用：通过func函数聚集RDD中的所有元素，先聚合分区内数据，再聚合分区间数据。
需求：创建一个RDD，将所有元素聚合得到结果。

scala> val rdd1 = sc.parallelize(Array(("a",1),("b",2),("c",3)))
rdd1: org.apache.spark.rdd.RDD[(String, Int)] = ParallelCollectionRDD[17] at parallelize at <console>:24

scala> rdd1.reduce((x,y)=> (x._1+y._1,x._2+y._2))
res9: (String, Int) = (acb,6)

1.12 count() 案例

作用：返回RDD中元素的个数
需求：创建一个RDD，统计该RDD的条数

scala> val rdd = sc.makeRDD(1 to 10 , 2)
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[16] at makeRDD at <console>:24

scala> rdd.count
res10: Long = 10

1.13 take(n)案例

作用:拿到前几个元素

scala> val rdd = sc.makeRDD(Array(4,3,6,1,5,2))
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at makeRDD at <console>:24

scala> rdd.take(3)
res0: Array[Int] = Array(4, 3, 6)

1.14 takeOrdered(n)案例

作用: 拿到排序后的前n个元素

scala> val rdd = sc.makeRDD(Array(4,3,6,1,5,2))

scala> rdd.takeOrdered(3)
res1: Array[Int] = Array(1, 2, 3)

1.15 aggregate 案例

参数:和之前aggregateBYKey一样有三个参数===>(zeroValue: U)(seqOp: (U,T) ⇒ U, combOp: (U, U) ⇒ U)
作用：aggregate函数将每个分区里面的元素通过seqOp和初始值进行聚合，然后用combine函数将每个分区的结果和初始值(zeroValue)进行combine操作。这个函数最终返回的类型不需要和RDD中元素类型一致。
需求：创建一个RDD，将所有元素相加得到结果

scala> val rdd = sc.makeRDD(1 to 10 ,2)
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[2] at makeRDD at <console>:24

scala> rdd.aggregate(0)(_+_,_+_)
res2: Int = 55

scala> rdd.aggregate(10)(_+_,_+_)
res10: Int = 85

注意

这里的aggregate与aggregateByKey区别是两个算子的初始值运用情况不同
aggregateByKey: 只做分区内的初始值计算========>75
aggregate:不只是在区内运算初始值,运算区间时也参与计算 ====> 85

1.16 foldByKey案例

参数：(zeroValue: V)(func: (V, V) => V): RDD[(K, V)]

作用：aggregateByKey的简化操作，seqop和combop相同
需求：创建一个pairRDD，计算相同key对应值的相加结果

scala> val rdd = sc.makeRDD(1 to 10 ,2)

scala> rdd.fold(0)(_+_)
res11: Int = 55

scala> rdd.fold(10)(_+_)
res12: Int = 85

1.17 saveAsTextFile(path)

作用：将数据集的元素以textfile的形式保存到HDFS文件系统或者其他支持的文件系统，对于每个元素，Spark将会调用toString方法，将它装换为文件中的文本

1.18 saveAsSequenceFile(path)

作用：将数据集中的元素以Hadoop sequencefile的格式保存到指定的目录下，可以使HDFS或者其他Hadoop支持的文件系统。

1.19 saveAsObjectFile(path)

作用：用于将RDD中的元素序列化成对象，存储到文件中。

1.20 countByKey()案例

作用：针对(K,V)类型的RDD，返回一个(K,Int)的map，表示每一个key对应的元素个数。
需求：创建一个PairRDD，统计每种key的个数

//创建一个PairRDD
scala> val rdd = sc.parallelize(List((1,3),(1,2),(1,4),(2,3),(3,6),(3,8)),3)

rdd: org.apache.spark.rdd.RDD[(Int, Int)] = ParallelCollectionRDD[95] at parallelize at <console>:24
//统计每种key的个数
scala> rdd.countByKey
res63: scala.collection.Map[Int,Long] = Map(3 -> 2, 1 -> 3, 2 -> 1)

歆歆歆歆歆

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark-RDD-Action

Spark-RDD-Action1.1 ActionAction算子不会再转成RDD算子,而是转出结果,之前的collect算子就是Action算子1.11 reduce(func) 案例作用：通过func函数聚集RDD中的所有元素，先聚合分区内数据，再聚合分区间数据。需求：创建一个RDD，将所有元素聚合得到结果。scala&gt; val rdd1 = sc.parall...
复制链接

扫一扫

专栏目录