spark-RDD学习

最新推荐文章于 2021-10-22 21:17:39 发布

7Ning

最新推荐文章于 2021-10-22 21:17:39 发布

阅读量186

点赞数

文章标签： spark

本文链接：https://blog.csdn.net/QningXu/article/details/106897225

版权

RDD是Spark中的基本数据抽象，表示不可变、分区的并行数据集。本文深入讲解RDD的概念、特性，如不可变性、分区计算，并探讨了RDD的创建、优势及不适合的应用场景。此外，还详细阐述了RDD的操作，如Transformations、宽依赖与Stage的关系，以及Spark内存管理和解释器的工作原理。

摘要由CSDN通过智能技术生成

RDD的概念

A Resilient Distributed Dataset (RDD), the basic abstraction in Spark.
弹性分布式数据集，spark中数据的基本抽象。
Represents an immutable，partitioned collection of elements that can be operated on in parallel.
不可变的，分区的可以并行操作的元素集合

概念理解

1.不可变性(immutable)：
RDD的不可变形为spark的血缘(Lineage)提供了保障，是spark数据恢复的基础。
2.分区(partitioned):
partitioned collection of elements that can be operated on in parallel.
元素可以由多个分区组成，并且可以进行并行操作

RDD的五大特性

1.A list of partitions

RDD是一个由多个partition（某个节点里的某一片连续的数据）组成的的List；将数据加载为RDD时，一般一个hdfs里的block会加载为一个partition。

2.A function for computing each split

RDD的每个partition上面都会有function，也就是函数应用，其作用是实现RDD之间partition的转换。

3.A list of dependencies on other RDDs

RDD会记录它的依赖，为了容错，也就是说在内存中的RDD操作时出错或丢失会进行重算。

4.Optionally,a Partitioner for Key-value RDDs

可选项，如果RDD里面存的数据是key-value形式，则可以传递一个自定义的Partitioner进行重新分区，例如这里自定义的Partitioner是基于key进行分区，那则会将不同RDD里面的相同key的数据放到同一个partition里面
调用 partitionBy方法以及自定义func

5.Optionally, a list of preferred locations to compute each split on
最优的位置去计算，也就是数据的本地性。 (本地化策略先executor->node->No_PREF->RACK_LOCAL->ANY)

RDD的代码使用与理解

RDD类解析

RDD抽象类代码

abstract class RDD[T: ClassTag](
    @transient private var _sc: SparkContext,
    @transient

最低0.47元/天解锁文章

7Ning

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫