Spark技术内幕：究竟什么是RDD

最新推荐文章于 2024-08-19 15:43:18 发布

anzhsoft

最新推荐文章于 2024-08-19 15:43:18 发布

阅读量3.2w

点赞数 10

分类专栏： Spark 云计算 Spark技术内幕文章标签： Spark DAG Stage

本文链接：https://blog.csdn.net/anzhsoft/article/details/39851421

版权

RDD是Spark的核心数据抽象，表示只读的、分区记录的集合。每个RDD由分片、计算函数、依赖、Partitioner（可选）和首选位置（可选）组成。RDD支持转换和动作，转换是惰性的，仅在执行动作时计算。通过persist或cache可以将RDD缓存以提高效率。Spark的DAGScheduler将DAG划分为Stage，TaskScheduler提交TaskSet到Executor执行。一个例子展示了RDD的使用，如错误日志处理。

摘要由CSDN通过智能技术生成

RDD是Spark最基本，也是最根本的数据抽象。http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf 是关于RDD的论文。如果觉得英文阅读太费时间，可以看这篇译文：http://shiyanjun.cn/archives/744.html

本文也是基于这篇论文和源码，分析RDD的实现。

第一个问题，RDD是什么？Resilient Distributed Datasets（RDD，）弹性分布式数据集。RDD是只读的、分区记录的集合。RDD只能基于在稳定物理存储中的数据集和其他已有的RDD上执行确定性操作来创建。这些确定性操作称之为转换，如map、filter、groupBy、join（转换不是程开发人员在RDD上执行的操作）。

RDD不需要物化。RDD含有如何从其他RDD衍生（即计算）出本RDD的相关信息（即Lineage），据此可以从物理存储的数据计算出相应的RDD分区。

看一下内部实现对于RDD的概述：

Internally, each RDD is characterized by five main properties:
*
* - A list of partitions
* - A function for computing each split
* - A list of dependencies on other RDDs
* - Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)
* - Optionally, a list of preferred locations to compute each split on (e.g. block locations for
* an HDFS file)

每个RDD有5个主要的属性：