处理数据类型为Value型的Transformation算子可以根据RDD变换算子的输入分区与输出分区关系分为以下几种类型:
1)输入分区与输出分区一对一型
(1)map
(2)flatMap
(3)mapPartitions
(4)glom2)输入分区与输出分区多对一型
(1)union
(2)certesian3)输入分区与输出分区多对多型
groupBy
4)输出分区为输入分区子集型
(1)filter
(2)distinct
(3)subtract
(4)sample
(5)takeSample5)还有一种特殊的输入与输出分区一对一的算子类型:Cache型。 Cache算子对RDD分区进行缓存
(1)cache
(2)persist