Spark Action算子

collect() 在驱动程序中,以数组的形式返回数据集的所有元素 返回单机的Scala Array数组。  

count() 返回RDD的元素个数 first 返回RDD的第一个元素(类似于take(1))

take(n) 返回一个由数据集的前n个元素组成的数组

takeSample(withReplacement,num, [seed]) 返回从数据集中随机采样的num个元素组成的数组

takeOrdered(n) 返回前几个的排序

reduce

// reduce 通过function函数聚集RDD中的所有元素,这个功能必须是可交换且可并联的。
val reduceRdd1 = sc.makeRDD(1 to 10, 2)
reduceRdd1.reduce(_ + _)
val reduceRdd2 = sc.makeRDD(Array(("a", 1), ("a", 3), ("c", 3), ("d", 5)))
//(aacd,12)
reduceRdd2.reduce((x, y) => (x._1 + y._1, x._2 + y._2))

aggregate  与  folder

//aggregate (zeroValue: U)(seqOp: (U, T) ⇒ U, combOp: (U, U) ⇒ U)
// aggregate函数将每个分区里面的元素通过seqOp和初始值进行聚合,然后用combine函数将每个分区的结果和初始值(zeroValue)进行combine操作。这个函数最终返回的类型不需要和RDD中元素类型一致。

    val rdd1 = sc.makeRDD(1 to 10, 2)
    // 30361
    rdd1.aggregate(1)(
      { (x: Int, y: Int) => x * y },
      { (a: Int, b: Int) => a + b }
    )
    // fold折叠操作  aggregate的简化操作

var rdd2 = sc.makeRDD(1 to 4,2)

    rdd2.aggregate(1)(
       {(x : Int,y : Int) => x + y},
       {(a : Int,b : Int) => a + b}
         )

//等价于rdd1.fold(1)(_+_)

存储为文件算子

saveAsTextFile(path)  将数据集的元素以textfile的形式保存到HDFS文件系统或者其他支持的文件系统,对于每个元素,Spark将会调用toString方法,将它装换为文件中的文本
saveAsSequenceFile(path)   将数据集中的元素以Hadoop sequencefile的格式保存到指定的目录下,可以使HDFS或者其他Hadoop支持的文件系统。
saveAsObjectFile(path)    用于将RDD中的元素序列化成对象,存储到文件中。

countByKey() 针对(K,V)类型的RDD,返回一个(K,Int)的map,表示每一个key对应的元素个数。

foreach(func) 在数据集的每一个元素上,运行函数func进行更新。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值