本文首发自个人博客:https://blog.smile13.com/articles/2018/12/02/1543738098914.html
1.spark算子分类
1.1Transformation算子
Transformation算子不触发提交作业,完成作业中间处理过程。Transformation算子又分为如下两类:
1.Value数据类型的Transformation算子:针对处理的数据项是Value型的数据。
2.Key-Value数据类型的Transformation算子:针对处理的数据项是Key-Value型的数据。
1.2Action算子
Action算子会触发 SparkContext 提交 Job 作业。
2.spark算子列表
2.1.Value数据类型的Transformation算子
2.1.1.输入分区与输出分区一对一类型的算子
(1)map算子
(2)flatMap算子
(3)mapPartitions算子
(4)mapPartitionsWithIndex算子
(5)glom算子
(6)randomSplit算子
2.1.2.输入分区与输出分区多对一类型