RDD：弹性分布式数据集-CSDN博客

本文链接：https://blog.csdn.net/lyw19930812/article/details/82802242

RDD

设计背景：因机器运算图计算，有不断的迭代计算，mapreduce的io开销太大。为解决此类问题，不用担心磁盘反复读写，序列化反序列化这种开销，构建一张DAG的有向无环图，可以实现数据的管道化处理（一个操作结束后把数据扔给下个操作作为输入，有效避免数据中间存储）。

概念

分布式对象集合，本质上是一个只读的分区记录集合，每个RDD可分成多个分区，每个分区就是一个数据集片段，并且一个RDD的不同分区可以被保存到集群中不同节点上，从而可以在集群中的不同节点上进行并行计算。RDD是一种高度受限的内存共享模型，即RDD是只读的记录分区的集合，不能直接修改，只能基于稳定的物理存储中的数据集创建RDD，或者通过在其它RDD上执行确定的转换操作（如map，join和groupby）而创建新的RDD。

操作

RDD执行过程

1、RDD读入外部数据源进行创建。
2、RDD经过一系列的转换（transformation）操作，每一次都会产生不同的RDD供给下一个转换操作使用。
3、最后一个RDD经过“动作”操作进行转换并输出到外部数据源。
在这里插入图片描述
惰性机制：转换并不是真正的转换操作，只是记录转换的轨迹，当调用动作的时候才会从头开始进行真正的计算，沿着轨迹进行计算。
这一系列处理称为一个Lineage（血缘关系），即DAG拓扑排序的结果（SparkContext拿到代码后，生成一堆的DAG图）。
优点：惰性调用，管道化，避免同步等待，不需要保存中间结果，每次操作变得简单。