RDD
设计背景:因机器运算图计算,有不断的迭代计算,mapreduce的io开销太大。为解决此类问题,不用担心磁盘反复读写,序列化反序列化这种开销,构建一张DAG的有向无环图,可以实现数据的管道化处理(一个操作结束后把数据扔给下个操作作为输入,有效避免数据中间存储)。
概念
分布式对象集合,本质上是一个只读的分区记录集合,每个RDD可分成多个分区,每个分区就是一个数据集片段,并且一个RDD的不同分区可以被保存到集群中不同节点上,从而可以在集群中的不同节点上进行并行计算。RDD是一种高度受限的内存共享模型,即RDD是只读的记录分区的集合,不能直接修改,只能基于稳定的物理存储中的数据集创建RDD,或者通过在其它RDD上执行确定的转换操作(如map,join和groupby)而创建新的RDD。
操作
RDD执行过程
1、RDD读入外部数据源进行创建。
2、RDD经过一系列的转换(transformation)操作,每一次都会产生不同的RDD供给下一个转换操作使用。
3、最后一个RDD经过“动作”操作进行转换并输出到外部数据源。
惰性机制:转换并不是真正的转换操作,只是记录转换的轨迹,当调用动作的时候才会从头开始进行真正的计算,沿着轨迹进行计算。
这一系列处理称为一个Lineage(血缘关系),即DAG拓扑排序的结果(SparkContext拿到代码后,生成一堆的DAG图)。
优点:惰性调用,管道化,避免同步等待,不需要保存中间结果,每次操作变得简单。
RDD特性
高效容错性:血缘关系、重新计算丢失分区、无需回滚系统、重算过程在不同节点之间并行、只记录粗粒度操作。
RDD运行过程
RDD宽依赖、窄依赖
算法
DAG图作为输入,输出为已经划分好的各个阶段。算法思想: