RDD深入讲解

最新推荐文章于 2022-04-28 16:28:35 发布

Mr云飞

最新推荐文章于 2022-04-28 16:28:35 发布

阅读量523

点赞数

分类专栏： SparkCore

本文链接：https://blog.csdn.net/qq_42064119/article/details/83021558

版权

SparkCore 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

1.RDD的作用

（1）让开发者大大降低开发分布式应用程序的门槛以及提高执行效率（特指和其他框架做对比）

例如：其他框架你要考虑数据的拆分、通信机制、作业挂了如何处理、作业调度、序列化等等。但是这些在RDD中直接通过map、reduce就可以完成了。

2.什么是RDD？

（1）RDD: Resilient Distributed dataset(弹性分布式数据集)

弹性：体现在计算层面，比图数据丢失的一些找回操作

（2）the basic abstraction in spark（他是spark最基础的一个抽象类）

（3）immutable、partitioned of collecttion of elements that can be operated on in parallel：不可变的、可拆分的、可以并行操作的元素的排序分区

（4）一个RDD有多个partition

（5）RDD是一个抽象类，所以它是不能直接使用的（new不出对象），因此我们使用的时候直接使用其子类即可。

（6）Serializable：序列化的目的改善网络的传输，所以它能直接影响整个框架的优劣

3.RDD的五大特性

（1）A list of partition：他是RDD的基本构成，就是一系列分区。

（2）A function for computing each split/partitio：一个计算方法是作用在每个分区上面的。

（3）A list of dependencies on other RDDs：RDD会记录它的依赖，为了容错（重算，cache，checkpoint），也就是说在内存中的RDD操作时出错或丢失会进行重算。比如RDD A =》RDD B ==》RDD C，那么C与A直接是有依赖关系的，当我们的某个分区挂掉的时候，spark可以通过我们的依赖关系来恢复这一个分区。

（4） Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)：可选项，如果RDD里面存的数据是key-value形式，则可以传递一个自定义的Partitioner进行重新分区，例如这里自定义的Partitioner是基于key进行分区，那则会将不同RDD里面的相同key的数据放到同一个partition里面。

（5）Optionally, a list of preferred locations to compute each split on：最优的位置去计算，也就是数据的本地性。