spark RDD 的弹性

yann.bai

已于 2022-07-12 20:56:41 修改

阅读量1.3k

点赞数

分类专栏：大数据文章标签： RDD Spark

于 2019-11-02 22:17:19 首次发布

本文链接：https://blog.csdn.net/mojir/article/details/102877134

版权

大数据专栏收录该内容

53 篇文章 0 订阅

订阅专栏

hadoop 的MapReduce是基于数据集的,位置感知，容错负载均衡
基于数据集的处理：从物理存储上加载数据，然后操作数据，然后写入物理存储设备；
基于数据集的操作不适应的场景：
1，不适合于大量的迭代
2，交互式查询
重点是：基于数据流的方式不能够复用曾经的结果或者中间计算结果;

spark RDD是基于工作集的。工作流和工作集的共同特点：位置感知，自动容错，负载均衡等。
spark的位置感知比hadoop的好很多，具体如下：
hadoop位置感知：hadoop进行partition之后就不管Reducer在哪里了。
spark的位置感知：spark进行partition后再进行下一步Stage时会确定其位置，是更精致化的。
RDD的弹性表现在以下几方面:

存储弹性、计算弹性、任务（task、sgate）弹性、数据位置弹性

1、弹性之一：自动的进行内存和磁盘数据存储的切换；
2、弹性之二：基于Lineage的高效容错（第n个节点出错，会从第n-1个节点恢复，血统容错）；
3、弹性之三：Task如果失败会自动进行特定次数的重试（默认4次）；
4、弹性之四：Stage如果失败会自动进行特定次数的重试（可以只运行计算失败的阶段）；只计算失败的数据分片；
5、checkpoint和persist
6、数据调度弹性：DAG TASK 和资源 管理无关
7、数据分片的高度弹性(人工自由设置分片函数),repartition

面试题若干，转自Spark的RDD的弹性体现在什么地方？------面试题_陆山右的博客-CSDN博客_rdd为什么是弹性的

1.RDD是什么？

RDD(Resilient Distributed Datasets) ,弹性分布式数据集， 是分布式内存的一个抽象概念，指的是一个只读的、不可变的、集合里面的元素可以分区的、支持并行化的操作的分布式数据集，这个数据集的全部或部分可以缓存在内存中，在多次计算间重用。
RDD提供了一种高度受限的共享内存模型，即RDD是只读的记录分区的集合，只能通过在其他RDD执行确定的转换操作（如map、join和group by）而创建，然而这些限制使得实现容错的开销很低。对开发者而言，RDD可以看作是Spark的一个对象，它本身运行于内存中，如读文件是一个RDD，对文件计算是一个RDD，结果集也是一个RDD ，不同的分片、数据之间的依赖、key-value类型的map数据都可以看做RDD。
3.RDD为何高效？

通过记录更新的方式为何很高效

1. RDD是不可变的+lazy。转化操作，行为操作。
2. RDD是粗粒度。[每次操作都作用于所以集合] 对于RDD的写是粗粒度的 RDD的读操作可以是粗粒度的也可以是细粒度的：可以读其中的一条记录。
4.常规容错机制

数据检查点[checkpoint]每次都有一个拷贝 IO开销大网络带宽是分布式的瓶颈
记录数据的更新每次数据变化都记录一下。

这里的工作集是指进程已映射的物理内存部分（即这些内存块全在物理内存中，并且CPU可以直接访问），还有一部分不在工作集中的虚拟内存则可能在转换列表中（CPU不能通过虚地址访问，需要Windows映射之后才能访问），还有一部分则在磁盘上的页面文件里。