spark中的RDD操作类型可以分为四类:创建操作(creation
)、转换操作(transformation
)、控制操作(control
)、行为操作(action
)
创建操作(
Creation Operation
)
主要用于创建RDD
。创建RDD
的两种方法,一种是parallelize
或者makeRDD
一个已存在的集合,另一种是在外部存储系统(比如HDFS
、HBASE
)中引用一个数据集转换操作(
Transformation Operation
)
将RDD
通过一定的操作变换成新的RDD
,比如HadoopRDD
可以使用map
操作变换成MappedRDD
,RDD
的转换操作是惰性操作,它只定义了一个新的RDDs
,并没有立即执行控制操作(
Control Operation
)
进行RDD
持久化,可以让RDD
按照不用的存储策略保存在磁盘或者内存中,主要有persist
、cache
两个方法,实际上cache