[Spark基础]-- spark的transformation和action算子(基本操作)

一、transform操作
1、map(func) 
返回一个新的分布式数据集,由每个原元素经过func函数处理后的新元素组成 


2、filter(func) 
返回一个新的数据集,由经过func函数处理后返回值为true的原元素组成 


3、flatMap(func) 
类似于map,但是每一个输入元素,会被映射为0个或多个输出元素,(因此,func函数的返回值是一个seq,而不是单一元素) 


4、mapPartitions(func) 
类似于map,对RDD的每个分区起作用,在类型为T的RDD上运行时,func的函数类型必须是Iterator[T]=>Iterator[U]


5、mapPartitionsWithIndex(func) 和mapPartitions类似,但func带有一个整数参数表上分区的索引值,在类型为T的RDD上运行时,func的函数参数类型必须是(int,Iterator[T])=>Iterator[U] 
sample(withReplacement,fraction,seed) 
根据给定的随机种子seed,随机抽样出数量为fraction的数据 


6、pipe(command,[envVars]) 
通过管道的方式对RDD的每个分区使用shell命令进行操作,返回对应的结果 


7、union(otherDataSet) 
返回一个新的数据集,由原数据集合参数联合而成 


8、intersection(otherDataset) 
求两个RDD的交集 


  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

往事随风ing

你的鼓励将是我创作的最大动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值