常见Spark算子

最新推荐文章于 2022-07-12 08:49:00 发布

我真的很爱写sql

最新推荐文章于 2022-07-12 08:49:00 发布

阅读量116

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_24503189/article/details/104456200

版权

转换操作

1.map

map的输入变换函数应用于RDD中所有元素，而mapPartitions应用于所有分区。区别于mapPartitions主要在于调用粒度不同。如parallelize（1 to 10， 3），map函数执行10次，而mapPartitions函数执行3次。

2.filter（function）

过滤操作，满足filter内function函数为true的RDD内所有元素组成一个新的数据集。如：filter（a == 1）。

3.flatMap（function）

map是对RDD中元素逐一进行函数操作映射为另外一个RDD，而flatMap操作是将函数应用于RDD之中的每一个元素，将返回的迭代器的所有内容构成新的RDD。

flatMap与map区别在于map为“映射”，而flatMap“先映射，后扁平化”，map对每一次（func）都产生一个元素，返回一个对象，而flatMap多一步就是将map生成的RDD元素‘拍扁’。

4.groupByKey([numTasks])

在一个PairRDD或（k,v）RDD上调用，返回一个（k,Iterable）。主要作用是将相同的所有的键值对分组到一个集合序列当中，其顺序是不确定的。groupByKey是把所有的键值对集合都加载到内存中存储计算，若一个键对应值太多，则易导致内存溢出。

在此，用之前求并集的union方法，将pair1，pair2变为有相同键值的pair3，而后进行groupByKey。

5.reduceByKey（function，[numTasks]）

与groupByKey类似，却有不同。如(a,1), (a,2), (b,1), (b,2)。groupByKey产生中间结果为( (a,1), (a,2) ), ( (b,1), (b,2) )。而reduceByKey为(a,3), (b,3)。

reduceByKey主要作用是聚合，groupByKey主要作用是分组。（function对于key值来进行聚合）。

行动操作

1.count（）

返回数据集中元素个数，默认Long类型。

2.reduce（function）

reduce将RDD中元素两两传递给输入函数，同时产生一个新值，新值与RDD中下一个元素再被传递给输入函数，直到最后只有一个值为止。

3.collect（）

将一个RDD以一个Array数组形式返回其中的所有元素。

4.take（n）

返回一个包含数据集前n个元素的数组（从0下标到n-1下标的元素），不排序。

5.first（）

返回数据集的第一个元素（类似于take(1)）

6.saveAsTextFile（path）

将dataSet中元素以文本文件的形式写入本地文件系统或者HDFS等。Spark将对每个元素调用toString方法，将数据元素转换为文本文件中的一行记录。

若将文件保存到本地文件系统，那么只会保存在executor所在机器的本地目录。

7.foreach（function）

对数据集中每一个元素运行函数function。

我真的很爱写sql

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
常见Spark算子

转换操作1.mapmap的输入变换函数应用于RDD中所有元素，而mapPartitions应用于所有分区。区别于mapPartitions主要在于调用粒度不同。如parallelize（1 to 10， 3），map函数执行10次，而mapPartitions函数执行3次。2.filter（function）过滤操作，满足filter内function函数为true的RDD内所有元素组...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。