Spark大数据处理学习笔记（3.2.2）掌握RDD算子

最新推荐文章于 2024-05-18 15:23:51 发布

Neroiiey

最新推荐文章于 2024-05-18 15:23:51 发布

阅读量1k

点赞数

分类专栏： Spark 文章标签： spark 学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/python_xtyyds/article/details/131206748

版权

Spark 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

三、掌握行动算子
3.1 归约算子 - reduce()
功能：

reduce()算子按照传入的函数进行归约计算
案例：

计算1 + 2 + 3 + …+100的值
计算1 × 2 × 3 × 4 × 5 × 6 的值（阶乘 - 累乘）

计算12 + 22 + 32 + 42 + 5**2的值（先映射，后归约）

3.2 采集算子 - collect()
功能：

collect()算子向Driver以数组形式返回数据集的所有元素。通常对于过滤操作或其他返回足够小的数据子集的操作非常有用。
案例：

显示RDD的全部元素

3.3 首元素算子 - first()
功能：

first()算子返回数据集中第一个元素
案例：

显示RDD的首元素

3.4 计数算子 - count()
功能：

count()算子统计RDD的元素个数
案例:

统计RDD的元素个数

如果要统计单词个数，那就要采用扁平映射算子

3.5 按键计数算子 - countByKey()
功能：

countByKey()算子按键统计RDD键值出现的次数，返回由键值和次数构成的映射。
案例：

List集合中存储的是键值对形式的元组，使用该List集合创建一个RDD，然后对其进行countByKey的计算。

注意：元素必须是键值对的二元组，不能是三元组

3.6 前截取算子 - take(n)
功能：

take(n)算子返回RDD的前n个元素（同时尝试访问最少的partitions)，返回结果是无序的，测试使用
案例：
返回集合中前任意多个元素组成的数组

三种情况：返回空集、真子集、全集
3.7 排序前截取算子 - takeOrdered(n)[(ordering)]
功能：

takeOrdered(n, [ordering])算子返回RDD中的前n个元素，并以自然顺序或自定义的比较器顺序进行排序
案例：
返回RDD前n个元素（升序）

返回前n个元素（降序）

其实，可以top(n)算子来实现同样的效果，更简单

3.8 遍历算子 - foreach()
功能：

计算 RDD中的每一个元素，但不返回本地（只是访问一遍数据)，可以配合println友好地打印数据。
案例：
将RDD里的每个元素平方后输出（一定要采集，才能遍历）

将RDD的内容逐行打印输出

3.9 存文件算子 - saveAsFile()
功能：

将RDD数据保存到本地文件或HDFS文件
案例：
将rdd内容保存到HDFS的/park/out目录

查看另存的结果文件

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark大数据处理学习笔记（3.2.2）掌握RDD算子

takeOrdered(n, [ordering])算子返回RDD中的前n个元素，并以自然顺序或自定义的比较器顺序进行排序。List集合中存储的是键值对形式的元组，使用该List集合创建一个RDD，然后对其进行countByKey的计算。take(n)算子返回RDD的前n个元素（同时尝试访问最少的partitions)，返回结果是无序的，测试使用。countByKey()算子按键统计RDD键值出现的次数，返回由键值和次数构成的映射。计算12 + 22 + 32 + 42 + 5**2的值（先映射，后归约）
复制链接

扫一扫

专栏目录

Neroiiey CSDN认证博客专家 CSDN认证企业博客

码龄3年

61: 原创

39万+: 周排名

171万+: 总排名

8万+: 访问

: 等级

647: 积分

27: 粉丝

33: 获赞

4: 评论

258: 收藏

私信

关注

热门文章

分类专栏

最新评论

使用IDEA工具通过Java API 访问HDFS
我也要写出好代码: 这个Hadoop WebUI界面是怎么打开的a?
python中while True的用处
zzz_create: 感谢作者
大数据MapReduce学习案例：数据去重
get嘤嘤嘤: 实实在在的技术干货，经验总结，想要深入研究技术的福音！支持作者推出更多精品博文！欢迎您来我的博客指点一番！٩(❛ัᴗ❛ั)
Python三角形的构成
weixin_57876571: a+b>c a-b>c 判断不完全如1 2 1不可以构成三角形，程序却可以不如简单点a+b>c and a+c>b and b+c>a

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。