【弹性的】分布式的数据集
弹性的:灵活的
Rdd的特性:
1、rdd是分布式的:rdd里面的数据实际上是分布在集群的不同节点上的。
注:数据是可分区的,分区的个数和hdfs上文件块的个数有关,默认一个文件块对应一个分区,一个分区对于一个rdd里面的一部分文件。
2、rdd是可分区的:分区的个数是我们可以指定的,但是默认的情况下,一个hdfs上的文件块就是一个分区,一个分区对应一个rdd里面的一部分文件 。
3、rdd是弹性的:如果在计算的时候,节点的内存的容量有限,我们可以将一部分文件存储在磁盘中运行,像mapreduce的执行过程一样。
4、rdd的容错性:rdd里面计算的数据是来自于hdfs上面的几个文件块,而这些文件块在hdfs上都做了冗余备份,所有,即使在计算的时候某个节点宕机了,还可以去存储副本的节点上去运行。