Spark为什么比MR快

最新推荐文章于 2024-01-31 11:22:42 发布

大数据YYDS

最新推荐文章于 2024-01-31 11:22:42 发布

阅读量2.4k

点赞数 4

分类专栏： Spark 文章标签： spark

原文链接：https://blog.csdn.net/qq_34224565/article/details/115022435?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522162788071616780265445462%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=162788071616780265445462&biz_i

版权

Spark 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1、spark是基于内存进行数据处理的，MapReduce是基于磁盘进行数据处理的

MapReduce的设计：中间结果保存在文件中，提高了可靠性，减少了内存占用。但是牺牲了性能。
Spark的设计：基于内存，迭代计算的中间结果不落盘直接在内存中传递。只有shuffle时或中间结果内存存不下才落盘。而MR的中间结果肯定会落盘。比如运行pageRank或者机器学习的算法，有可能要迭代几百次。

2、spark中具有DAG有向无环图，DAG有向无环图在此过程中减少了shuffle以及落地磁盘的次数

Spark 计算比 MapReduce 快的根本原因在于 DAG 计算模型。一般而言，DAG 相比MapReduce 在大多数情况下可以减少 shuffle 次数。Spark 的 DAGScheduler 相当于一个改进版的 MapReduce，如果计算不涉及与其他节点进行数据交换，Spark 可以在内存中一次性完成这些操作，也就是中间结果无须落盘，减少了磁盘 IO 的操作。

但是，如果计算过程中涉及数据交换，Spark 也是会把 shuffle 的数据写磁盘的！有一个误区，Spark 是基于内存的计算，所以快，这不是主要原因，要对数据做计算，必然得加载到内存，Hadoop 也是如此，只不过 Spark 支持将需要反复用到的数据给 Cache 到内存中，减少数据加载耗时，所以 Spark 跑机器学习算法比较在行（需要对数据进行反复迭代）。Spark 基于磁盘的计算也是比 Hadoop 快。刚刚提到了 Spark 的 DAGScheduler 是个改进版的 MapReduce，所以 Spark天生适合做批处理的任务。Hadoop 的 MapReduce 虽然不如 spark 性能好，但是 HDFS 仍然是业界的大数据存储标准。

3、spark是粗粒度资源申请，也就是当提交spark application的时候，application会将所有的资源申请完毕，如果申请不到资源就等待，如果申请到资源才执行application，task在执行的时候就不需要自己去申请资源，task执行快，当最后一个task执行完之后task才会被释放。

优点是执行速度快，缺点是不能使集群得到充分的利用

MapReduce是细粒度资源申请，当提交application的时候，task执行时，自己申请资源，自己释放资源，task执行完毕之后，资源立即会被释放，task执行的慢，application执行的相对比较慢。

优点是集群资源得到充分利用，缺点是application执行的相对比较慢。

而且当job任务过多的时候，不需要不断地去重新根据job开进程。spark由application统一申请资源，application提交时已经把所有资源申请好，只需要从线程池拿线程执行一个个job即可。

4、Spark Shuffle经过了几次优化后，速度明显比MR Shuffle效率更高；（比如BypassSortShuffle，没有排序）

spark的其他一些优势：

提供丰富的算子，减少开发成本
算子的优势体现为：

将分布式的操作封装，只需要提供实现逻辑。就比如咱们现在，规定12点吃饭，我只需要在班里说一遍就行了吧，不需要跑到每个人耳朵边上说几点吃饭吧。而且我只规定了几点吃饭，没规定你吃什么吧，你吃盒饭去那边喝羊汤都行。所以高阶函数的好处就是更灵活、规范，如果你对既有流程不满意，当然也可以自己定义一个算子。
常用逻辑封装，而MR只有2个阶段，很多逻辑需要自己实现
分为转换、行动、持久化算子，其中转换算子懒执行、又叫延迟执行

大数据YYDS

关注

4
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
Spark为什么比MR快

1、spark是基于内存进行数据处理的，MapReduce是基于磁盘进行数据处理的 MapReduce的设计：中间结果保存在文件中，提高了可靠性，减少了内存占用。但是牺牲了性能。 Spark的设计：基于内存，迭代计算的中间结果不落盘直接在内存中传递。只有shuffle时或中间结果内存存不下才落盘。而MR的中间结果肯定会落盘。比如运行pageRank或者机器学习的算法，有可能要迭代几百次。2、spark中具有DAG有向无环图，DAG有向无环图在此过程中减少了shuffle以及落地磁盘的次数
复制链接

扫一扫

专栏目录