一、transform操作
1、map(func)
返回一个新的分布式数据集,由每个原元素经过func函数处理后的新元素组成
2、filter(func)
返回一个新的数据集,由经过func函数处理后返回值为true的原元素组成
3、flatMap(func)
类似于map,但是每一个输入元素,会被映射为0个或多个输出元素,(因此,func函数的返回值是一个seq,而不是单一元素)
4、mapPartitions(func)
类似于map,对RDD的每个分区起作用,在类型为T的RDD上运行时,func的函数类型必须是Iterator[T]=>Iterator[U]
5、mapPartitionsWithIndex(func) 和mapPartitions类似,但func带有一个整数参数表上分区的索引值,在类型为T的RDD上运行时,func的函数参数类型必须是(int,Iterator[T])=>Iterator[U]
sample(withReplacement,fraction,seed)
根据给定的随机种子seed,随机抽样出数量为fraction的数据
6、pipe(command,[envVars])
通过管道的方式对RDD的每个分区使用shell命令进行操作,返回对应的结果
7、union(otherDataSet)
返回一个新的数据集,由原数据集合参数联合而成
8、intersection(otherDataset)
求两个RDD的交集
[Spark基础]-- spark的transformation和action算子(基本操作)
最新推荐文章于 2024-05-28 22:46:39 发布