spark为什么比mapreduce快

**

spark为什么比mapreduce快

**

当问到这个问题时总是回答:“spark是基于内存 hadoop是基于磁盘” ,我感觉这个说法不是很严谨 ,所有运算都是基于内存的spark和mr都是基于内存的运算,不通的是数据源的的来源,比如mr每次的数据源都是来源磁盘文件,而spark是可以基于之前运算的的缓存所以速度会快。

<正题>spark 比mr快的原因
spark的官方案例上显示spark比mr快100倍以上,这个是有条件的,哪个案例时对同一份数据进行反复的迭代运算,将重复是哦那个的数据缓存在内存中,所以数据只需要缓存一次,而hadoop需要将数据反复加载,实际情况是比mr快不了那么多,

原因主要: 1.hadoop每次shuffle后数据是必须i要落盘的,而spark在shuffle后不一定要落盘,可以缓存在内存中,再迭代运算时比hadoop快很多
2. 红重要的原因时spark具有DAG,在此过程中减少了shuffle以及落盘的次数,spark里面的算子机制一次提交的job如果使用mr来完成,需要提交多次任务,任务之间的数据是通过磁盘来交互的,所以会很慢
3.spark时粗粒度资源申请,当提交spark application时,application会将所有资源申请完毕,但申请不到会等待而且在最后一个task执行晚才会释放资源 缺点:资源利用不充分,但是速度快
hadoop时细粒度的 application提交时,task执行时自己申请资源,task执行完毕资源会立即释放, 所以资源利用充分一点,而速度会慢很多

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值