在前面几篇博客里,介绍了Spark的伪分布式安装,以及使用Spark Shell进行交互式操作,本篇博客主要是对Spark整体上进行梳理。
Spark的几个特点
- Spark是基于内存的计算,比基于磁盘的Hadoop Map Reduce快了百倍的数量级
- Spark MapReduce操作更丰富更灵活
- Spark通过一个技术栈,提供完整的针对大数据计算的生态系统
Spark速度快
1. Hadoop MapReduce磁盘级计算模型
Hadoop MapReduce计算模型是磁盘级的计算,下图是Hadoop权威指南上很经典的一幅关于MapReduce计算过程的截图,
Hadoop MapReduce将每个计算任务都划分为Map、Shuffle和Reduce三个阶段,Map的输入和输出要读写磁盘,Reduce的输入和输出也要读写磁盘,这对于通过递归迭代算法来解决的