RDD基本介绍-CSDN博客

本文链接：https://blog.csdn.net/a1237564537/article/details/147633755

RDD（Resilient Distributed Datasets）即弹性分布式数据集，是 Apache Spark 中最核心的数据抽象，它代表了一个不可变、可分区、里面的元素可并行计算的集合。下面从多个方面对 RDD 进行详细介绍：

核心特性

弹性
- 存储弹性：RDD 可以根据需要在内存或磁盘之间自动切换存储，当内存不足时，部分数据会被存储到磁盘上，以保证计算的顺利进行。
- 容错弹性：RDD 具备容错能力，当某个分区的数据丢失时，Spark 可以根据 RDD 的血统信息（即 RDD 的生成过程）重新计算该分区的数据，而不需要重新计算整个 RDD。
- 计算弹性：RDD 支持多种计算模式，可以根据数据的特点和计算需求选择合适的计算方式，如 MapReduce、DAG 等。
分布式：RDD 的数据是分布在集群的多个节点上的，这样可以充分利用集群的计算资源，实现并行计算，提高数据处理的效率。
数据集：RDD 是一个只读的、可分区的数据集，它可以包含各种类型的数据，如整数、字符串、自定义对象等。

创建方式

从外部数据源读取：可以从 HDFS、本地文件系统、HBase、Cassandra 等外部数据源读取数据创建 RDD。例如，从本地文件系统读取文本文件创建 RDD 的代码如下：

python

运行

from pyspark import SparkContext

sc = SparkContext("local", "RDDCreationExample")
rdd = sc.textFile("file:///path/to/your/file.txt")

并行化集合：将 Python 列表、NumPy 数组等集合对象并行化创建 RDD。示例代码如下：

python

运行

data = [1, 2, 3, 4, 5]
rdd = sc.parallelize(data)

操作类型

RDD 支持两种类型的操作：转换操作（Transformations）和行动操作（Actions）。

转换操作：转换操作是一种惰性操作，它不会立即执行，而是返回一个新的 RDD。常见的转换操作有 map、filter、flatMap、reduceByKey 等。例如，使用 map 操作将 RDD 中的每个元素乘以 2：

python

运行

rdd = sc.parallelize([1, 2, 3, 4, 5])
new_rdd = rdd.map(lambda x: x * 2)

行动操作：行动操作会触发实际的计算，并返回一个具体的结果或把结果保存到外部存储系统。常见的行动操作有 collect、count、reduce、saveAsTextFile 等。例如，使用 collect 操作将 RDD 中的所有元素收集到驱动程序中：

python

运行

result = new_rdd.collect()
print(result)

血统关系（Lineage）

RDD 之间存在着一种依赖关系，即血统关系。每个 RDD 都知道自己是如何从其他 RDD 转换而来的，这种依赖关系记录了 RDD 的生成过程。当某个 RDD 的数据丢失时，Spark 可以根据血统关系重新计算该 RDD。例如，在上面的 map 操作中，new_rdd 依赖于 rdd，当 new_rdd 的数据丢失时，Spark 可以通过对 rdd 重新执行 map 操作来恢复 new_rdd 的数据。