Spark为什么比Mapreduce快

最新推荐文章于 2024-03-11 14:53:51 发布

L13763338360

最新推荐文章于 2024-03-11 14:53:51 发布

阅读量223

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/L13763338360/article/details/119802725

版权

28 篇文章 1 订阅

订阅专栏

1、mapreduce磁盘 vs spark内存

其实Spark和MapReduce的计算都发生在内存中，区别在于：

MapReduce：通常需要将计算的中间结果写入磁盘，然后还要读取磁盘，从而导致了频繁的磁盘IO。
Spark：不需要每次将计算的中间结果写入磁盘，这得益于Spark的RDD（弹性分布式数据集，很强大）和DAG（有向无环图），其中DAG记录了job的stage以及在job执行过程中父RDD和子RDD之间的依赖关系。中间结果能够以RDD的形式存放在内存中，且能够从DAG中恢复，大大减少了磁盘IO。

2、MapReduce Shuffle vs Spark Shuffle

3、Mapreduce多进程模型 vs Spark多线程模型

MapReduce：采用了多进程模型，多进程模型的好处是便于细粒度控制每个任务占用的资源，但每次任务的启动都会消耗一定的启动时间。mapreduce 中的 map 和 reduce 都是 jvm 进程，每次启动都需要重新申请资源，消耗了不必要的时间
Spark：通过复用线程池中的线程来减少启动、关闭task所需要的开销。多线程模型也有缺点，由于同节点上所有任务运行在一个进程中，因此，会出现严重的资源争用，难以细粒度控制每个任务占用资源。

关注

专栏目录