RDD算子

本文详细介绍了Spark的RDD算子,包括Value型Transformation算子(如map、filter)、Key-Value型Transformation算子(如reduceByKey、join)以及Action算子(如collect、saveAsTextFile)。内容涵盖了各类算子的功能、应用场景和执行原理,例如Cache算子用于缓存RDD,foreach用于执行无输出操作,而saveAsObjectFile则将数据保存到HDFS。
摘要由CSDN通过智能技术生成
一、RDD算子可以分为三大类
1、Value数据类型的Transformation算子
2、Key-Value数据类型的Transformation算子
3、Action算子,这类算子会触发SparkContext提交Job作业。

二、Value型Transformation算子
1、输入分区与输出分区一对一型
map
flatMap
mapPartitions
glom:将每个分区形成一个数组,内部实现是返回的GlommedRDD。
2、输入分区与输出分区多对一型
union
cartesian:对两个RDD内的所有元素进行笛卡尔积操作,操作后,内部实现返回CartesianRDD。
3、输入分区与输出分区多对多型
groupBy:将元素通过函数生成相应的Key,数据就转化为Key-Value格式,
之后将Key相同的元素分为一组。

4、输出分区为输入分区子集型
filter
distinct
subtract:相当于进行集合的差操作,RDD1去除RDD1和RDD2交集中的所有元素。
sample
takeSample
5、还有一种特殊的输入与输出分区一对一的算子类型:Cache型。
   C
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值