学习spark：三、RDD的action操作

最新推荐文章于 2022-07-15 00:18:03 发布

coding如逆水行舟

最新推荐文章于 2022-07-15 00:18:03 发布

阅读量825

点赞数

分类专栏： Spark 文章标签： spark 并行计算

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Earl211/article/details/47292413

版权

Spark 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

本质上，Action通过SparkContext执行提交作业的runjob操作，触发了RDD DAG的执行。

reduce(func)
　　将集合中的元素通过func函数合并起来，该函数应该是可交换，结合的，这样才能应用到并行计算中。

collect()
　　将数据中的元素返回为一个数组，这个函数通常用在filter等其他操作后。

count()
　　返回数据集中元素的个数

first()
　　返回数据集中的第一个元素

take(n)
　　返回数据集中前n个元素

takeSample(withReplacement, num, [seed])
　　按设定的采样个数进行采样

takeOrdered(n, [ordering])
　　返回前N个RDD中元素的自然顺序或自定义比较器

saveAsTextFile(path)
　　将数据集中的元素存储起来，存在给定的目录中的本地文件系统，或任何其他的Hadoop HDFS 支持的文件系统。Spark可以调用toString将每个元素以每行的形式存在文本中

savaAsSequenceFile(path)
　　将数据集中的RDD以Hadoop SequenceFile的形式存在给定路径本地的文件系统，HDFS或者其他任何Hadoop支持的文件系统中。这个对读取存在Hadoop中健值对十分有用。

saveAsObjectFile(path)
　　使用java序列化将数据集中的元素存储为一个简单的格式，我们可以通过SparkContext.objectFile()进行读取。

countBykey()
　　返回具有不同健的键值对的个数

foreach(func)
　　对RDD中的每个元素应用func函数，不返回RDD和Arry，而是返回Uint。

coding如逆水行舟

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。