目录
一、RDD概述
1.1 什么是RDD
1.2 RDD特性
-
A list of partitions (多个分区,分区可以看成是数据集的基本组成单位)
对于 RDD 来说, 每个分区都会被一个计算任务处理, 并决定了并行计算的粒度。
用户可以在创建 RDD 时指定 RDD 的分区数, 如果没有指定, 那么就会采用默认值。 默认值就是程序所分配到的 CPU Core 的数目。
每个分配的存储是由BlockManager 实现的, 每个分区都会被逻辑映射成 BlockManager 的一个 Block,而这个 Block 会被一个 Task 负责计算。
- A functio