Spark核心编程
Spark 核心编程
一、Spark基本工作原理与RDD
1.基本工作原理
分布式
基于内存(少数情况基于磁盘)
迭代式计算 与MapReduce的最大不同
MR:分为两个阶段 map和reduce,两个阶段完了,job就结束了。 所以在一个job里能做的处理有限。
Spark计算模型:可以分为n个阶段,是内存迭代式的,处理完一个阶段后,可以继续往下处理很多个阶段。
2.RDD
RDD是Spark提供的核心抽象,全称Resillient Distributed Dataset,
原创
2020-12-07 17:41:36 ·
141 阅读 ·
0 评论