Spark中RDD概述

RDD

设计背景:因机器运算图计算,有不断的迭代计算,mapreduce的io开销太大。为解决此类问题,不用担心磁盘反复读写,序列化反序列化这种开销,构建一张DAG的有向无环图,可以实现数据的管道化处理(一个操作结束后把数据扔给下个操作作为输入,有效避免数据中间存储)。

概念

分布式对象集合,本质上是一个只读的分区记录集合,每个RDD可分成多个分区,每个分区就是一个数据集片段,并且一个RDD的不同分区可以被保存到集群中不同节点上,从而可以在集群中的不同节点上进行并行计算。RDD是一种高度受限的内存共享模型,即RDD是只读的记录分区的集合,不能直接修改,只能基于稳定的物理存储中的数据集创建RDD,或者通过在其它RDD上执行确定的转换操作(如map,join和groupby)而创建新的RDD。

操作

RDD执行过程

1、RDD读入外部数据源进行创建。
2、RDD经过一系列的转换(transformation)操作,每一次都会产生不同的RDD供给下一个转换操作使用。
3、最后一个RDD经过“动作”操作进行转换并输出到外部数据源。
在这里插入图片描述
惰性机制:转换并不是真正的转换操作,只是记录转换的轨迹,当调用动作的时候才会从头开始进行真正的计算,沿着轨迹进行计算。
这一系列处理称为一个Lineage(血缘关系),即DAG拓扑排序的结果(SparkContext拿到代码后,生成一堆的DAG图)。
优点:惰性调用,管道化,避免同步等待,不需要保存中间结果,每次操作变得简单。

RDD特性

在这里插入图片描述
高效容错性:血缘关系、重新计算丢失分区、无需回滚系统、重算过程在不同节点之间并行、只记录粗粒度操作。

RDD运行过程

在这里插入图片描述
在这里插入图片描述

RDD宽依赖、窄依赖

在这里插入图片描述

算法

DAG图作为输入,输出为已经划分好的各个阶段。算法思想:
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值