什么是 RDD
RDD 全称 ResilientDistributedDataset (弹性分布式数据集 )
RDD 仅为一个抽象的编程模型,RDD 默认没有数据
RDD 的五大特性
A list of partitions
由一组分区组成,默认一个 Block 块对应一个 partition
A function for computing each split
算子(函数)是作用在每一个分区上面的
A list of dependencies on other RDDs
RDD之间有一系列的依赖关系,可以根据有无 shuffle 的过程分为