Spark学习笔记：三、RDD原理

最新推荐文章于 2023-05-14 08:52:48 发布

冰河映寒星

最新推荐文章于 2023-05-14 08:52:48 发布

阅读量1k

点赞数

分类专栏： Hadoop_And_Spark 文章标签： spark

本文链接：https://blog.csdn.net/Stars_Zhang/article/details/81806746

版权

Hadoop_And_Spark 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

学习总结厦门大学林子雨老师的大数据课程
http://dblab.xmu.edu.cn/blog/spark/
一、RDD原理：

一个RDD就是一个分布式对象集合，本质上是一个只读的分区记录集合，每个RDD可以分成多个分区，每个分区就是一个数据集片段，并且一个RDD的不同分区可以被保存到集群中不同的节点上，从而可以在集群中的不同节点上进行并行计算。

RDD提供了一组丰富的操作以支持常见的数据运算，分为“行动”（Action）和“转换”（Transformation）两种类型，前者用于执行计算并指定输出的形式，后者指定RDD之间的相互依赖关系。

类操作的主要区别是，转换操作（比如map、filter、groupBy、join等）接受RDD并返回RDD，而行动操作（比如count、collect等）接受RDD但是返回非RDD（即输出一个值或结果）。

二、RDD典型的执行过程：

1、RDD读入外部数据源（或者内存中的集合）进行创建；
2、RDD经过一系列的“转换”操作，每一次都会产生不同的RDD，供给下一个“转换”使用；
3、最后一个RDD经“行动”操作进行处理，并输出到外部数据源（或者变成Scala集合或标量）。

需要说明的是，RDD采用了惰性调用，即在RDD的执行过程中，真正的计算发生在RDD的“行动”操作，对于“行动”之前的所有“转换”操作，Spark只是记录下“转换”操作应用的一些基础数据集以及RDD生成的轨迹，即相互之间的依赖关系，而不会触发真正的计算。

三、RDD特性：

总体而言，Spark采用RDD以后能够实现高效计算的主要原因如下：
1、高效的容错性。现有的分布式共享内存、键值存储、内存数据库等，为了实现容错，必须在集群节点之间进行数据复制或者记录日志，也就是在节点之间会发生大量的数据传输，这对于数据密集型应用而言会带来很大的开销。在RDD的设计中，数据只读，不可修改，如果需要修改数据，必须从父RDD转换到子RDD，由此在不同RDD之间建立了血缘关系。所以，RDD是一种天生具有容错机制的特殊集合，不需要通过数据冗余的方式（比如检查点）实现容错，而只需通过RDD父子依赖（血缘）关系重新计算得到丢失的分区来实现容错，无需回滚整个系统，这样就避免了数据复制的高开销，而且重算过程可以在不同节点之间并行进行，实现了高效的容错。此外，RDD提供的转换操作都是一些粗粒度的操作（比如map、filter和join），RDD依赖关系只需要记录这种粗粒度的转换操作，而不需要记录具体的数据和各种细粒度操作的日志（比如对哪个数据项进行了修改），这就大大降低了数据密集型应用中的容错开销；

2、中间结果持久化到内存。数据在内存中的多个RDD操作之间进行传递，不需要“落地”到磁盘上，避免了不必要的读写磁盘开销；

3、存放的数据可以是Java对象，避免了不必要的对象序列化和反序列化开销。