spark为什么比mapreduce快

最新推荐文章于 2024-08-24 22:19:55 发布

sghuu

最新推荐文章于 2024-08-24 22:19:55 发布

阅读量424

点赞数 1

分类专栏： spark

本文链接：https://blog.csdn.net/sghuu/article/details/103543890

版权

spark 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

spark为什么比mapreduce快

当问到这个问题时总是回答：“spark是基于内存 hadoop是基于磁盘” ，我感觉这个说法不是很严谨，所有运算都是基于内存的spark和mr都是基于内存的运算，不通的是数据源的的来源，比如mr每次的数据源都是来源磁盘文件，而spark是可以基于之前运算的的缓存所以速度会快。

<正题>spark 比mr快的原因：
spark的官方案例上显示spark比mr快100倍以上，这个是有条件的，哪个案例时对同一份数据进行反复的迭代运算，将重复是哦那个的数据缓存在内存中，所以数据只需要缓存一次，而hadoop需要将数据反复加载，实际情况是比mr快不了那么多，

原因主要： 1.hadoop每次shuffle后数据是必须i要落盘的，而spark在shuffle后不一定要落盘，可以缓存在内存中，再迭代运算时比hadoop快很多
2. 红重要的原因时spark具有DAG，在此过程中减少了shuffle以及落盘的次数，spark里面的算子机制一次提交的job如果使用mr来完成，需要提交多次任务，任务之间的数据是通过磁盘来交互的，所以会很慢
3.spark时粗粒度资源申请，当提交spark application时，application会将所有资源申请完毕，但申请不到会等待而且在最后一个task执行晚才会释放资源缺点：资源利用不充分，但是速度快
hadoop时细粒度的 application提交时，task执行时自己申请资源，task执行完毕资源会立即释放, 所以资源利用充分一点，而速度会慢很多