弹性分布式数据集。
* Internally, each RDD is characterized by five main properties:
*
* - A list of partitions
* - A function for computing each split
* - A list of dependencies on other RDDs
* - Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)
* - Optionally, a list of preferred locations to compute each split on (e.g. block locations for
* an HDFS file)
有5个特征:
1. 是一个分区列表。
2. 是一个计算每个数据块的函数。
3. 是一个RDD之间的依赖列表。
4. 可选的,是一个key-value RDD的分区器。
5. 可选的,是一个根据数据位置确定最优计算位置的列表。