Spark行为算子中的aggregate()|fold()|countByKey()统计每种key的个数|save相关算子

最新推荐文章于 2024-06-16 23:15:39 发布

SmallScorpion

最新推荐文章于 2024-06-16 23:15:39 发布

阅读量431

点赞数 1

分类专栏： Spark模块化学习文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40180229/article/details/105598859

版权

Spark模块化学习专栏收录该内容

46 篇文章 6 订阅

订阅专栏

aggregate()

在这里插入图片描述

代码实现

在这里插入图片描述

fold()

在这里插入图片描述

代码实现

在这里插入图片描述

countByKey()统计每种key的个数

1）函数签名：def countByKey(): Map[K, Long]
2）功能说明：统计每种key的个数

在这里插入图片描述

代码实现

在这里插入图片描述

save相关算子

1）saveAsTextFile(path)保存成Text文件
（1）函数签名
（2）功能说明：将数据集的元素以textfile的形式保存到HDFS文件系统或者其他支持的文件系统，对于每个元素，Spark将会调用toString方法，将它装换为文件中的文本
2）saveAsSequenceFile(path) 保存成Sequencefile文件
（1）函数签名
（2）功能说明：将数据集中的元素以Hadoop Sequencefile的格式保存到指定的目录下，可以使HDFS或者其他Hadoop支持的文件系统。
注意：只有kv类型RDD有该操作，单值的没有
3）saveAsObjectFile(path) 序列化成对象保存到文件
（1）函数签名
（2）功能说明：用于将RDD中的元素序列化成对象，存储到文件中。

代码实现

在这里插入图片描述

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。