spark-常用算子

Logan_addoil

已于 2023-12-16 22:19:00 修改

阅读量1.2k

点赞数 17

分类专栏：大数据学习之旅文章标签： spark

于 2023-12-16 16:16:21 首次发布

本文链接：https://blog.csdn.net/logan_addoil/article/details/135032965

版权

大数据学习之旅专栏收录该内容

23 篇文章 0 订阅

订阅专栏

一，Transformation变换/转换算子：

这种变换并不触发提交作业，这种算子是延迟执行的，也就是说从一个RDD转换生成另一个RDD的转换操作不是马上执行，需要等到有Action操作的时候才会真正触发。

1.Value数据类型的Transformation算子

这种变换并不触发提交作业，针对处理的数据项是Value型的数据

（1）输入分区与输出分区一对一型：

1.map算子

处理数据是一对一的关系，进入一条数据，出去的还是一条数据。map的输入变换函数应用于RDD中所有的元素，而mapPartitions应用于所有分区。区别于mapPartitions主要在于调度粒度不同。如parallelize（1
to 10 ，3），map函数执行了10次，而mapPartitions函数执行了3次。

2.flatMap算子

flatMap是一对多的关系，处理一条数据得到多条结果。将原来 RDD 中的每个元素通过函数 f 转换为新的元素，并将生成的 RDD
的每个集合中的元素合并为一个集合。

3.mapPartitions算子

mapPartitions遍历的是每一个分区中的数据，一个个分区的遍历。获取到每个分区的迭代器，在函数中通过这
个分区整体的迭代器对整个分区的元素进行操作，相对于map一条条处理数据，性能比较高，可获取返回值。

可以通过函数f(iter)
=>iter.filter(_>=3)对分区中所有的数据进行过滤，大于和等于3的数据保留，一个方块代表一个RDD分区，含有1,2,3的分区过滤，只剩下元素3。

4.mapPartitionsWithIndex算子

拿到每个RDD中的分区，以及分区中的数据

（2）输入分区与输出分区多对一型

5.union算子

合并两个RDD，两个RDD必须是同种类型，不一定是K，V格式的RDD

6.cartesian算子

求笛卡尔积，该操作不会执行shuffle操作，但最好别用，容易触发OOM

（3）输入分区与输出分区多对多型

7.groupBy算子

按照指定的规则，将数据分组

groupByKey算子

有shuffle产生，根据key去将相同的key对应的value合并在一起（K,V）=>(K,[V])

（4）输出分区是输入分区子集类型

8.filter算子

过滤数据，返回true的数据会被留下

9.distinct算子

distinct去重，有shuffle产生，内部实际是map+reduceByKey+map实现

10.subtract算子

取RDD的差集，subtract两个RDD的类型要一致，结果RDD的分区数与subtract算子前面的RDD分区数多的一致。

11.sample算子

sample随机抽样，参数sample（withReplacement:有无放回抽样，fraction:抽样的比例，seed:用于指定的随机数生成器的种子）

有种子和无种子的区别：

有种子是只要针对数据源一样，都是指定相同的参数，那么每次抽样到的数据都是一样的

没有种子是针对同一个数据源，每次抽样都是随机抽样

（5）Cache算子

13.cache算子

将结果缓存到内存中

14.persist算子

释放内存

cache()和persist()注意问题

1.cache()和persist()持久化单位是partition，cache()和persist()是懒执行算子，需要action算子触发执行
2.对一个RDD使用cache或者persist之后可以赋值给一个变量，下次直接使用这个变量就是使用持久化的数据。 * 也可以直接对RDD进行cache或者persist，不赋值给一个变量 *
3.如果采用第二种方法赋值给变量的话，后面不能紧跟action算子 * 4.cache()和persist()的数据在当前application执行完成之后会自动清除