本文介绍一下rdd的基本属性概念、rdd的转换/行动操作、rdd的宽/窄依赖。
RDD:Resilient Distributed Dataset 弹性分布式数据集,是Spark中的基本抽象。
RDD表示可以并行操作的元素的不变分区集合。
RDD提供了许多基本的函数(map、filter、reduce等)供我们进行数据处理。
RDD概述
通常来说,每个RDD有5个主要的属性组成:
-
分区列表。
RDD是由多个分区组成的,分区是逻辑上的概念。RDD的计算是以分区为单位进行的。
-
用于计算每个分区的函数。
作用于每个分区数据的计算函数。
-
对其他RDD的依赖关系列表。
RDD中保存了对于父RDD的依赖,根据依赖关系组成了Spark的DAG(有向无环图),实现了spark巧妙、容错的编程模型
-
针对键值型RDD的分区器。
分区器针对键值型RDD而言的,将key传入分区器获取唯一的分区id。在shuffle中,分区器有很重要的体现。
-
对每个分区进行计算的首选位置列表。
根据数据本地性的特性,获取计算的首选位置列表,尽可能的把计算分配到靠近数据的位置,减少数据的网络传输。
RDD的内部代码
先看看基本概念的代码:
//创建此RDD的SparkContext
def sparkContext: SparkContext = sc
// 唯一的id
val id: Int = sc.newRddId()
// rdd友善的名字
@transient var name: String = _
// 分区器
val partitioner: Option[Partitioner] = None
// 获取依赖列表
// dependencies和partitions中都用到了checkpointRDD,如果进行了checkpoint,checkpointRDD表示进行checkpoint后的rdd
final def dependencies: Seq[Dependency[_]] = {
// 一对一的窄依赖
checkpointRDD.map(r => List(new OneToOneDependency(r))).getOrElse {
if (dependencies_ == null) {
dependencies_ = getDependencies
}
dependencies_
}
}
// 获取分区列表
final