Spark所有的操作都围绕弹性分布式数据集(RDD)进行,这是一个有容错机制并可以被并行操作的元素集合,
具有只读、分区、容错、高效、无需物化、可以缓存、RDD依赖等特征。
目前有两种类型的基础RDD:
并行集合(Parallelized Collections):接收一个已经存在的Scala集合,然后进行各种并行计算。
Hadoop数据集(Hadoop Datasets) :在一个文件的每条记录上运行函数。只要文件系统是HDFS,
或者hadoop支持的任意存储系统即可。
这两种类型的RDD都可以通过相同的方式进行