Spark编程指南入门之Java篇四-常用Actions操作

8. 常用的Actions操作

T reduce(Function2<T,T,T> f) 使用指定的函数f聚合数据集中的元素,该函数把数据集中的每2个元素聚合成一个,一直递归直到得出最后一个元素

java.util.List<T> collect() 以List形式返回数据集的所有元素到驱动程序节点,通常用于filter或其它返回足够少数据的操作之后

long count() 返回数据集中元素的个数

T first() 返回数据集中的第一个元素,类似于take(1)

java.util.List<T> take(int num) 返回数据集中的前N个元素

java.util.List<T> takeSample(boolean withReplacement,int num,long seed) 对数据集随机抽样,返回一个包含num个随机抽样元素的List,参数withReplacement可以选择是否用随机数进行替换,seed用于指定随机数生成器

java.util.List<T> takeOrdered(int num,java.util.Comparator<T> comp) 返回数据集中经过排序的前N个元素

void saveAsTextFile(String path) 将数据集中的元素以文本文件(或文本文件集合)的形式保存到指定的本地文件系统、HDFS或其它Hadoop支持的文件系统中。Spark会对每个元素调用toString方法转换为文本文件中的一行记录

void saveAsObjectFile(String path) 将数据集中的元素以Java序列化的格式保存到指定的路径。这些保存的文件,可以使用SparkContext.objectFile()方法读取

void foreach(VoidFunction<T> f) 对数据集中每的个元素使用函数f进行处理

* Spark RDD的API同时也提供了部分actions的异步操作,例如foreachAsync,该方法立即返回一个FutureAction而不是阻塞直到action的完成

TO BE CONTINUED...O(∩_∩)O
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值