1.为什么需要RDD?
RDD(Resilient Distribute Datasets):弹性分布式数据集
2.RDD的五大特性
前三个是必须的,后面两个是可选的。
1.RDD是有分区的
RDD的分区是RDD数据存储的最小单位,一份RDD数据本质上被分成了很多分区。
分区是物理概念,RDD是逻辑上的概念,和列表字典一样。
2.计算方法会作用到每一个分区之上
3.RDD之间是有互相依赖关系的
4.Key- Value型的RDD可以有分区
5.RDD的分区规划,会尽量靠近数据所在的服务器
3.wordcount案例的RDD分析图
4.程序执行入口:SparkContext 对象
5.RDD的两种创建方式
1.并行化创建,使用parallelize()创建
2.读取文件创建,使用textFile()以及wholeTextFile()创建
6.RDD算子概念和分类
算子是什么:分布式集合对象上的API叫做算子
本地对象的API,叫做方法/函数
分布式对象的API,叫做算子
算子我们可以分成两类: