RDD的全称:弹性分布式数据集合,它是spark的基本数据结构,spark中的所有数据都是通过RDD的形式进行组织。
RDD是不可变的数据集合,不可变的意思是RDD中的每个分区数据是只读的。
RDD数据集是要做逻辑分区的(这里的分区类似hadoop中的逻辑切片split),每个分区可以单独在集群节点进行计算。
RDD数据集中的数据类型可以包含任何java类型、scala类型、python类型或者自定义的类型。
RDD擅长的领域:迭代式的数据处理,比如机器学习。
RDD自带的5个属性详解——
1.分区列表,Partition List。这里的分区概念类似hadoop中的split切片概念,即数据的逻辑切片
2.针对每个split(切片)的计算函数,即同一个RDD的每个切片的数据使用相同的计算函数
3.对其他rdd的依赖列表
4.可选,如果是(