[Spark基础]-- spark的transformation和action算子(基本操作)

最新推荐文章于 2024-05-28 22:46:39 发布

往事随风ing

最新推荐文章于 2024-05-28 22:46:39 发布

阅读量2.7k

点赞数

分类专栏： Spark 文章标签： spark

本文链接：https://blog.csdn.net/high2011/article/details/77507604

版权

Spark 专栏收录该内容

133 篇文章 10 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

一、transform操作
1、map(func)
返回一个新的分布式数据集，由每个原元素经过func函数处理后的新元素组成

2、filter(func)
返回一个新的数据集，由经过func函数处理后返回值为true的原元素组成

3、flatMap(func)
类似于map，但是每一个输入元素，会被映射为0个或多个输出元素，(因此，func函数的返回值是一个seq，而不是单一元素)

4、mapPartitions(func)
类似于map，对RDD的每个分区起作用，在类型为T的RDD上运行时，func的函数类型必须是Iterator[T]=>Iterator[U]

5、mapPartitionsWithIndex(func) 和mapPartitions类似，但func带有一个整数参数表上分区的索引值，在类型为T的RDD上运行时，func的函数参数类型必须是(int,Iterator[T])=>Iterator[U]
sample(withReplacement,fraction,seed)
根据给定的随机种子seed，随机抽样出数量为fraction的数据

6、pipe(command,[envVars])
通过管道的方式对RDD的每个分区使用shell命令进行操作，返回对应的结果

7、union(otherDataSet)
返回一个新的数据集，由原数据集合参数联合而成

8、intersection(otherDataset)
求两个RDD的交集

了解本专栏

超级会员免费看

往事随风ing

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
[Spark基础]-- spark的transformation和action算子(基本操作)

一、transform操作1、map(func) 返回一个新的分布式数据集，由每个原元素经过func函数处理后的新元素组成 2、filter(func) 返回一个新的数据集，由经过func函数处理后返回值为true的原元素组成 3、flatMap(func) 类似于map，但是每一个输入元素，会被映射为0个或多个输出元素，(因此，func函数的返回值是一个seq，而不是单一元素) 4...
复制链接

扫一扫