Spark分布式计算和RDD模型研究_spark计算模型-CSDN博客

本文链接：https://blog.csdn.net/dc_726/article/details/41381791

RDD（Resilient Distributed Datasets）是Spark的核心抽象，它是一种只读、分区的数据集，提供高效的错误容忍和内存管理。RDD通过记录转换历史（lineage）实现容错，适合批处理应用。其主要优势包括：通过世族关系还原丢失数据、缓解结点落后问题、批量操作提升性能和优雅降级。RDD分为窄依赖和宽依赖，窄依赖支持高效管道化执行和故障还原，宽依赖则需要中间数据持久化。Spark调度器基于DAG创建执行计划，并根据数据本地性分配任务。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1背景介绍

现今分布式计算框架像MapReduce和Dryad都提供了高层次的原语，使用户不用操心任务分发和错误容忍，非常容易地编写出并行计算程序。然而这些框架都缺乏对分布式内存的抽象和支持，使其在某些应用场景下不够高效和强大。RDD(Resilient Distributed Datasets弹性分布式数据集)模型的产生动机主要来源于两种主流的应用场景：

Ø 迭代式算法：迭代式机器学习、图算法，包括PageRank、K-means聚类和逻辑回归(logistic regression)

Ø 交互式数据挖掘工具：用户在同一数据子集上运行多个Adhoc查询。

不难看出，这两种场景的共同之处是：在多个计算或计算的多个阶段间，重用中间结果。不幸的是，在目前框架如MapReduce中，要想在计算之间重用数据，唯一的办法就是把数据保存到外部存储系统中，例如分布式文件系统。这就导致了巨大的数据复制、磁盘I/O、序列化的开销，甚至会占据整个应用执行时间的一大部分。

为了解决这种问题，研究人员为有这种数据重用需要的应用开发了特殊的框架。例如将中间结果保存在内存中的迭代式图计算框架Pregel。然而这些框架只支持一些特定的计算模式，而没有提供一种通用的数据重用的抽象。于是，RDD横空出世，它的主要功能有：

Ø 高效的错误容忍

Ø 中间结果持久化到内存的并行数据结构

Ø 可控制数据分区来优化数据存储

Ø 丰富的操作方法

对于设计RDD来说，最大的挑战在于如何提供高效的错误容忍(fault-tolerance)。现有的集群上的内存存储抽象，如分布式共享内存、key-value存储、内存数据库以及Piccolo等，都提供了对可变状态(如数据库表里的Cell)的细粒度更新。在这种设计下为了容错,就必须在集群结点间进行数据复制(data replicate)或者记录日志。这两种方法对于数据密集型的任务来说开销都非常大，因为需要在结点间拷贝大量的数据，而网络带宽远远低于RAM。

与这些框架不同，RDD提供基于粗粒度转换(coarse-grained transformation)的接口,例如map、filter、join，能够将同一操作施加到许多数据项上。于是通过记录这些构建数据集(lineage世族)的粗粒度转换的日志，而非实际数据，就能够实现高效的容错。当某个RDD丢失时，RDD有充足的关于丢失的那个RDD是如何从其他RDD产生的信息，从而通过重新计算来还原丢失的数据，避免了数据复制的高开销。

尽管基于粗粒度转换的接口第一眼看起来有些受限、不够强大，但实际上RDD却能很好地用于许多并行计算应用，因为这些应用本身自然而然地就是在多个数据项上运用相同的操作。事实上，RDD能够高效地表达许多框架的编程模型，如MapReduce、DryadLINQ、SQL、Pregel和HaLoop，以及它们处理不了的交互式数据挖掘应用。