Spark-RDD 简单总结

最新推荐文章于 2024-05-16 19:31:31 发布

长处四肢

最新推荐文章于 2024-05-16 19:31:31 发布

阅读量192

点赞数

文章标签： spark 大数据分布式

本文链接：https://blog.csdn.net/luke991127/article/details/133201849

版权

RDD是Reslient Distributed DataSet的缩写，意思是弹性分布式数据集，是一种数据结构。是一个读取分区记录的集合，是Spark对需要处理数据的基本抽象。

Spark中的计算过程可以简单的抽象为对RDD的创建、转换、返回操作结果的过程：

创建：通过加载外部物理存储中的数据集，或者Application中定义的对象集合来创建。RDD在创建后不可以被改变，只能做转换和行动。
转换（Transaction）：对已有的RDD中的数据执行计算并进行转换，从而产生新的RDD,这个过程中有时会产生中间RDD。Spark对转换采用惰性计算机制，遇到转换不会立即计算结果，而是遇到行为算子时会一起执行。
行动（action）：对已有的RDD中的数据执行计算并产生结果，将结果返回给Driver程序或者写入到外部物理存储。在Action过程也可能产生RDD

总结：RDD 就是一种 Spark 计算框架为了能够进行高并发和高吞吐的分布式数据结构。

RDD的高并发和高吞吐可以从下面几个方面进行解释：

分区与并行计算：RDD被划分为多个分区，每个分区都可以在不同的线程中并行处理，这可以理解为可以同时对多个数据块进行处理，因此提高了系统的并发量。同时，Spark可以轻松拓展到多个节点和多核处理器，充分利用计算资源。
内存缓存：Spark使用内存缓存RDD的计算结果，这样在进行后续操作时，可以直接从内存中获取数据，避免了磁盘I/O的开销，提高了计算速度。同时，缓存也可以避免重复计算相同的RDD分区，提高了计算效率。
分布式计算图：Spark使用了一种称为“计算图”的模型，可以将任务分解为一系列可执行的操作，并且可以优化执行计划，使得计算更加高效。此外，Spark还支持动态生成计算图，可以根据实际数据和业务需求进行动态调整。
通信机制：Spark使用了一种高效的通信机制，可以在节点之间进行快速的数据传输。这使得在分布式环境下，节点之间的数据交换更加高效，减少了网络拥堵和延迟。
容错机制：Spark具有强大的容错机制，可以自动处理节点故障和数据丢失的情况。由于RDD是只读的，并且可以保存计算状态，因此Spark可以在节点故障时重新计算丢失的数据分区，保证了系统的可靠性。

Spark可以轻松地扩展到多个节点和多核处理器的原因主要归功于其设计上的优势：

分布式内存计算引擎：Spark使用分布式内存计算引擎，可以高效地利用多节点和多核处理器。它将数据分区为多个数据块（partitions），并在多个工作节点（workers）上并行处理这些partitions。这种方式使得Spark可以充分利用多核处理器的计算能力，并通过分布式内存计算大幅提高数据处理速度。
计算与存储的分离：Spark将计算和存储分开，采用了分布式存储系统（如Hadoop的HDFS或Apache Cassandra等），这使得数据可以在多个节点上并行处理，而不必受限于单个节点的内存限制。
适用于多核处理器的并行计算模型：Spark采用了适用于多核处理器的并行计算模型，如map-reduce等，这使得它可以充分利用多核处理器的计算能力。同时，Spark还支持任务级别的并行执行，可以进一步提高计算效率。
高效的通信机制：Spark在节点间使用了高效的通信机制，如网络通信库和压缩算法等，可以在节点间快速传输数据，避免了网络拥堵和延迟问题。
灵活的资源调度：Spark支持动态资源调度，可以根据任务的需求动态分配计算资源，这使得Spark可以更好地利用集群资源，提高计算效率。

这些优势使得Spark可以轻松地扩展到多个节点和多核处理器，并实现高效的大规模数据处理、机器学习、图计算等任务。

源码中是一个抽象类，代表一系列弹性的、不可变的、可分区、里面元素可并行计算的集合。

弹性
- 弹性存储：磁盘和内存自动切换
- 弹性容错：数据丢失可以自动回复（血缘关系）
- 弹性计算：计算出错重试机制
- 弹性分片：可根据需求重新分片
分布式：数据存储在大数据集群不同的节点上
数据集：RDD只封装计算逻辑，不保存数据
数据抽象：RDD是一个抽象类，需要子类具体实现
不可变：RDD创建后不可以改变，想要改变就只能产生新的RDD，在新的RDD中封装新的计算逻辑
可分区：RDD是一种分布式的数据集，由于数据量很大所以要切分存储到各个节点的分区中
并行计算：一个分区对应一个任务，分区是Spark计算任务的基本处理单位，决定了并行计算的粒度（粒度：可以理解为被RDD划分的分区数）
依赖关系：血缘关系，如果某个RDD丢失了，可以根据血缘关系，从父RDD计算重新获得
惰性执行：Spark 对于 Transformation 转换算子采用惰性计算机制，遇到 Transformation 时并不会立即计算结果，而是要等遇到 Action 行动算子时才会一起执行。