【Spark】RDD的设计和运行原理

最新推荐文章于 2023-03-10 16:13:21 发布

饥渴的小苹果

最新推荐文章于 2023-03-10 16:13:21 发布

阅读量2.4k

点赞数 1

分类专栏： Spark

本文链接：https://blog.csdn.net/qq_17677907/article/details/88685951

版权

Spark的核心是RDD，一个只读的分布式对象集合，用于并行计算。RDD提供转换和行动操作，通过惰性调用和血缘关系实现高效容错。中间结果可持久化在内存中，减少磁盘IO，且使用Java对象避免序列化开销。SparkContext构建DAG，DAGScheduler将其拆解为阶段，任务调度器分发任务到Executor执行。

摘要由CSDN通过智能技术生成

Spark的核心是建立在统一的抽象RDD之上，使得Spark的各个组件可以无缝进行集成，在同一个应用程序中完成大数据计算任务。

RDD设计背景

在实际应用中，存在许多迭代式算法（比如机器学习、图算法等）和交互式数据挖掘工具，这些应用场景的共同之处是，不同计算阶段之间会重用中间结果，即一个阶段的输出结果会作为下一个阶段的输入。
但是，目前的MapReduce框架都是把中间结果写入到HDFS中，带来了大量的数据复制、磁盘IO和序列化开销。虽然，类似Pregel等图计算框架也是将结果保存在内存当中，但是，这些框架只能支持一些特定的计算模式，并没有提供一种通用的数据抽象。
RDD就是为了满足这种需求而出现的，它提供了一个抽象的数据架构，我们不必担心底层数据的分布式特性，只需将具体的应用逻辑表达为一系列转换处理，不同RDD之间的转换操作形成依赖关系，可以实现管道化，从而避免了中间结果的存储，大大降低了数据复制、磁盘IO和序列化开销。

RDD概念

一个RDD就是一个分布式对象集合，本质上是一个只读的分区记录集合，每个RDD可以分成多个分区，每个分区就是一个数据集片段，并且一个RDD的不同分区可以被保存到集群中不同的节点上，从而可以在集群中的不同节点上进行并行计算。
RDD提供了一种高度受限的共享内存模型，即RDD是只读的记录分区的集合，不能直接修改，只能基于稳定的物理存储中的数据集来创建RDD，或者通过在其他RDD上