概念
RDD(Resilient Distributed Dateset),弹性分布式数据集
RDD 的五大特性
1. RDD 是由一系列的 partition 组成的。
2. 函数是作用在每一个 partition(split)上的。
3. RDD 之间有一系列的依赖关系。
4. 分区器是作用在 K,V 格式的 RDD 上。
5. RDD 提供一系列最佳的计算位置。
RDD概念模型图解
RDD详解
- textFile 方法底层封装的是读取 MR 读取文件的方式,读取文件之前先 split,默认 split 大小是一个block 大小
- RDD 实际上不存储数据
- RDD 提供计算最佳位置,体现了数据本地化。体现了大数据中“计算移动数据不移动”的理念
- 什么是 K,V 格式的 RDD?如果 RDD 里面存储的数据都是二元组对象,那么这个 RDD 我们就叫做 K,V 格式的 RDD
- 哪里体现 RDD 的弹性(容错):partition 数量,大小没有限制,体现了 RDD 的弹性。RDD 之间依赖关系,可以基于上一个 RDD 重新计算出 RDD
- 哪里体现 RDD 的分布式,RDD 是由 Partition 组成,partition 是分布在不同节点上的