RDD 常用算子

Kazi_1024

于 2022-12-16 20:37:07 发布

阅读量998

点赞数 2

分类专栏： Spark 文章标签： spark python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42322454/article/details/128342305

版权

RDD算子的分类

算子：RDD所能调用的函数
判定算子类型：只能依据返回值来判断，返回值是RDD则肯定是转换算子
按照类型划分只有两类：转换算子和触发算子
按照使用功能可以划分为基础算子和分析算子

Tranformation（转换）算子

功能：用于实现对RDD的数据进行转换
特点：都是lazy模式的，一般不会触发job的运行，算子返回值一定是RDD
常见：map/filter/flatMap/reduceByKey/groupByKey/sortByKey

Action（触发）算子

功能：触发job的运行，用于对RDD的数据进行输出或者保存
特点：一定会触发job的运行，返回值一定不是RDD
常见：foreach、first、count、reduce、saveAsTextFile、collect、take

小结：
转换算子：一般不会触发job的构建，都是lazy模式，算子的返回值一定是RDD类型

触发算子：一定会触发job，构建Task将数据返回给用户，算子的返回值一定不是RDD类型

常用的基础算子

转换算子

map

功能：对RDD中每个元素进行操作，并将处理好的每个结果直接放入一个新的RDD中
场景：一对一的处理
语法：def map(self , f: T -> U ) -> RDD[U]
- f：函数
- T：f函数的参数
- -> ：表示转换
- U: 返回值

flatMap

功能：将两层列表List[List[A]]，转换成一层列表List[A]，类似于SQL中explode函数
场景：一对多的处理

最低0.47元/天解锁文章

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
RDD 常用算子

RDD常用算子。转换算子：map、filter、flatMap、reduceByKey、groupByKey和sortByKey触发算子：foreach、count、reduce、saveAsTextFile、collect、take和first
复制链接

扫一扫

专栏目录

Kazi_1024 CSDN认证博客专家 CSDN认证企业博客

码龄6年

47: 原创

39万+: 周排名

25万+: 总排名

9万+: 访问

: 等级

844: 积分

58: 粉丝

175: 获赞

42: 评论

331: 收藏

私信

关注

热门文章

分类专栏

Git 2篇
Java 1篇
Linux 7篇
Hive 4篇
Spark 10篇
Hadoop 9篇
面试 6篇
Python 5篇
Vue 4篇
JS 3篇

最新评论

el-dialog嵌套的影响、原因及解决方法
倒装8: 最后一段代码怎么做到内层加了append-to-body却同级显示的
深拷贝和浅拷贝的区别及实现方法
山原旷其盈视: 扩展运算符如果对象里面都是基本类型的话，应该是深拷贝吧，博主看见回复一下，咱们探讨探讨
Shuffle的作用以及MapReduce的Shuffle过程
靓仔写sql: 翻了那么多文章，这边的mapreduce说的听清楚的，不过我还有个疑问就是这个split是按什么切片的呢？
Spark的宽窄依赖
m0_73611990: 你是我的神
分布式的设计思想
EmotionFlying: 文章内容清晰易懂，支持大佬

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。