Spark编程指南入门之Java篇四-常用Actions操作

最新推荐文章于 2024-03-12 10:06:06 发布

煉心_

最新推荐文章于 2024-03-12 10:06:06 发布

阅读量1.4k

点赞数

分类专栏： Spark 文章标签： Spark

本文链接：https://blog.csdn.net/gangchengzhong/article/details/54312510

版权

Spark 专栏收录该内容

18 篇文章 6 订阅

订阅专栏

8. 常用的Actions操作

T reduce(Function2<T,T,T> f) 使用指定的函数f聚合数据集中的元素，该函数把数据集中的每2个元素聚合成一个，一直递归直到得出最后一个元素

java.util.List<T> collect() 以List形式返回数据集的所有元素到驱动程序节点，通常用于filter或其它返回足够少数据的操作之后

long count() 返回数据集中元素的个数

T first() 返回数据集中的第一个元素，类似于take(1)

java.util.List<T> take(int num) 返回数据集中的前N个元素

java.util.List<T> takeSample(boolean withReplacement,int num,long seed) 对数据集随机抽样，返回一个包含num个随机抽样元素的List，参数withReplacement可以选择是否用随机数进行替换，seed用于指定随机数生成器

java.util.List<T> takeOrdered(int num,java.util.Comparator<T> comp) 返回数据集中经过排序的前N个元素

void saveAsTextFile(String path) 将数据集中的元素以文本文件(或文本文件集合)的形式保存到指定的本地文件系统、HDFS或其它Hadoop支持的文件系统中。Spark会对每个元素调用toString方法转换为文本文件中的一行记录

void saveAsObjectFile(String path) 将数据集中的元素以Java序列化的格式保存到指定的路径。这些保存的文件，可以使用SparkContext.objectFile()方法读取

void foreach(VoidFunction<T> f) 对数据集中每的个元素使用函数f进行处理

* Spark RDD的API同时也提供了部分actions的异步操作，例如foreachAsync，该方法立即返回一个FutureAction而不是阻塞直到action的完成

TO BE CONTINUED...O(∩_∩)O

煉心_

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Spark编程指南入门之Java篇四-常用Actions操作

8. 常用的Actions操作T reduce(Function2 f) 使用指定的函数f聚合数据集中的元素，该函数把数据集中的每2个元素聚合成一个，一直递归直到得出最后一个元素java.util.List collect() 以List形式返回数据集的所有元素到驱动程序节点，通常用于filter或其它返回足够少数据的操作之后long count() 返回数据集中元素的个数
复制链接

扫一扫

专栏目录