1. Spark与Hadoop
2. MapReduce的基本计算过程
与之相对比的是Spark往往在一个内存的物理节点完成计算(主要用内存,Shuffle的时候也用到磁盘)。很多操作,比如说单纯的map操作,没有reduce操作;或者Filter类的操作,都可以基于内存进行计算。
MR的计算模型相比较,非常固定,而且死板。必须基于磁盘,以及大量的网络传输。
所以,spark的速度比MR、Hive(底层也是基于MR来执行SQL语句)快数十倍,甚至上百倍。
3. Spark整体架构
与之相对比的是Spark往往在一个内存的物理节点完成计算(主要用内存,Shuffle的时候也用到磁盘)。很多操作,比如说单纯的map操作,没有reduce操作;或者Filter类的操作,都可以基于内存进行计算。
MR的计算模型相比较,非常固定,而且死板。必须基于磁盘,以及大量的网络传输。
所以,spark的速度比MR、Hive(底层也是基于MR来执行SQL语句)快数十倍,甚至上百倍。