RDD(resilient distributed dataset)弹性分布式数据集,这个数据集可以缓存在内存中,在多级计算间重用。在抽象上来说,它是一个可分区的数据集,不同的分区分布在不同的worker节点上。它的数据默认是存储在内存中的,当内存不足时,会将数据写入磁盘。
RDD的容错性是很重要的,如果某个节点上的RDD partition数据丢失,那么RDD会根据自己的数据源来重新计算该partition,这就是RDD的容错性——lineage(血统)特性。
RDD的创建可以由HDFS上的文件来创建,本地文件创建,hive表创建,消息创建,集合创建等。通过SparkContext的textfile方法可以将本地文件或者HDFS上的文件,转化为RDD。
RDD有两种操作算子:
①transformation(转换):并没有立即进行转换,只是记录RDD的操作逻辑。
map,filter,flatmap,sample,union,groupByKey,reduceByKey,jion
②action(执行):真正地执行,并触发transformation的执行。
reduce,collect,count,take,first,foreach,saveAsTextFile
RDD的窄依赖(一对一)和宽依赖(多对一):
窄依赖:输出RDD的每一个分区依赖常数个输入RDD的分区。①输入输出一对一,且输出RDD的分区结构不变(map,filter)。②输入输出一对一,但输出RDD的分区结构发生变化(union)
宽依赖:输出RDD的每一个分区依赖所有输入RDD的分区。