SparkCore之RDD---弹性分布式数据集

最新推荐文章于 2021-05-11 10:31:48 发布

孤独の√ 3

最新推荐文章于 2021-05-11 10:31:48 发布

阅读量494

点赞数 2

分类专栏：大数据 # spark 文章标签：分布式

本文链接：https://blog.csdn.net/LCY_1013/article/details/105185377

版权

RDD（Resilient Distributed Dataset）是Spark的核心数据抽象，表示不可变、可分区的分布式数据集。RDD操作包括转换和行动，转换产生新RDD保持血缘关系，行动触发计算。RDD特性包括可分区、不可变、依赖关系、缓存和检查点，通过并行化、读取文件或转换其他RDD来创建。SparkContext构建DAG，TaskScheduler将任务分发给Executor执行。

摘要由CSDN通过智能技术生成

RDD的设计与运行原理

Spark的核心是建立在统一的抽象RDD上的，使得Spark的各个组件可以无缝地进行集成，在同一个应用程序中完成大数据计算任务。

一、RDD设计背景

在实际应用中，存在许多迭代式算法（如机器学习、图算法）和交互式数据挖掘工具，这些应用场景的共同之处是，不同计算阶段之间会重用中间结果，即一个阶段的输出结果会作为下一个阶段的输入。但是，目前的MapReduce框架都是把中间结果写入到HDFS上，带来了大量的数据复制、磁盘IO和序列化开销。虽然类似Pregel等图计算框架也是将结果保存到内存当中，但是这些框架只能支持一些特定的计算模式，并没有提供一种通用的数据抽象。RDD就是为了满足这种需求出现的，它提供了一个抽象的数据架构，我们不必担心底层数据的分布式特性，只需将具体的应用逻辑表达为一系列转换处理，不同的RDD之间的转换操作形成依赖关系，可以实现管道化，从而避免了中间结果的存储，大大降低了数据复制、磁盘IO和序列化开销。

二、RDD概念

1.什么是RDD？

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。它是一种有容错机制的特殊数据集合，可以分布在集群的结点上，以函数式操作集合的方式进行各种并行操作。

通俗点来讲，可以将 RDD 理解为一个分布式对象集合，本质上是一个只读的分区记录集合。每个 RDD 可以分成多个分区，每个分区就是一个数据集片段。一个 RDD 的不同分区可以保存到集群中的不同结点上，从而可以在集群中的不同结点上进行并行计算。

RDD 的操作是惰性的，当 RDD 执行转化操作的时候，实际计算并没有被执行，只有当 RDD 执行行动操作时才会促发计算任务提交，从而执行相应的计算操作。

最低0.47元/天解锁文章

孤独の√ 3

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
SparkCore之RDD---弹性分布式数据集

目录：RDD的设计与运行原理一、RDD设计背景二、RDD概念1.什么是RDD？2.RDD的属性三、RDD特点1.可分区2.不可变3.依赖关系4.缓存（cache）5.检测点（CheckPoint）四、RDD的创建1.通过并行化的方式创建RDD2.读取文件生成RDD3.通过其他RDD转换五、RDD运行过程RDD的设计与运行原理Spark的核心是建立在统一的抽象RDD上的，使得Spark的各个组件...
复制链接

扫一扫