既然决定了仔细学习Spark,笔者决定从最基础知识点开始记录。
本文仅列出了MR与Spark较大的区别点,实际mr与Spark为完全不同的大数据计算组件,需要我们在实践中探索使用。
MR与Spark的区别
1.计算速度
MR与Spark的根本区别(关键优化)在于:Spark除了需要shuffle的计算,其他是将结果/中间结果持久化到内存中,而MR是都需要落地到磁盘(map.reduce落地都写),因此Spark格外适用于频繁读写中间结果的迭代计算
而MR最终落地HDFS,Spark 如果落地,会落地节点磁盘,因此如果只是简单的非迭代计算,MR最终只会比Spark多消耗一部分(HDFS不同datanode间的)网络IO。
所以如果有项目需求为简单的非迭代计算,以及内存资源紧张的情景,仍然可以使用MR。
1.1磁盘I/O
因此,速度区别之一在于磁盘I/O,即:
MapReduce 的 map 端将中间输出和结果存储在磁盘中,reduce 端又需要从磁盘读写中间结果,势必造成磁盘IO成为瓶颈。
Spark允许将map端的中间输出和结果存储在内存中,reduce端在拉取中间结果时避免了大量的磁盘 I/O。
1.2并行度
此外,速度区别之二在于任务的并行度不同:
Spark会增加任务的并行度从而提高速度:由于将中间结果写到磁盘与从磁盘读取中间结果属