**
spark为什么比mapreduce快
**
当问到这个问题时总是回答:“spark是基于内存 hadoop是基于磁盘” ,我感觉这个说法不是很严谨 ,所有运算都是基于内存的spark和mr都是基于内存的运算,不通的是数据源的的来源,比如mr每次的数据源都是来源磁盘文件,而spark是可以基于之前运算的的缓存所以速度会快。
<正题>spark 比mr快的原因:
spark的官方案例上显示spark比mr快100倍以上,这个是有条件的,哪个案例时对同一份数据进行反复的迭代运算,将重复是哦那个的数据缓存在内存中,所以数据只需要缓存一次,而hadoop需要将数据反复加载,实际情况是比mr快不了那么多,
原因主要: 1.hadoop每次shuffle后数据是必须i要落盘的,而spark在shuffle后不一定要落盘,可以缓存在内存中,再迭代运算时比hadoop快很多
2. 红重要的原因时spark具有DAG,在此过程中减少了shuffle以及落盘的次数,spark里面的算子机制一次提交的job如果使用mr来完成,需要提交多次任务,任务之间的数据是通过磁盘来交互的,所以会很慢
3.spark时粗粒度资源申请,当提交spark application时,application会将所有资源申请完毕,但申请不到会等待而且在最后一个task执行晚才会释放资源 缺点:资源利用不充分,但是速度快
hadoop时细粒度的 application提交时,task执行时自己申请资源,task执行完毕资源会立即释放, 所以资源利用充分一点,而速度会慢很多