个人对MR和spark的认知,并不准确,谨慎参考!

    hadoop最核心的框架就是HDFS(Hadoop Distributed File System)和MapRuduce,其中HDFS是为海量数据提供存储,而MapReduce是为海量数据提供了计算。

   Spark则是由加州大学伯克利分校的AMP实验室开发,由于spark的计算速度远远大于mr的速度,所以在一定程度上spark已经取代了mr,但由于spark并未提供数据存储功能,而hadoop又实现了yarn的资源管理,从而实现了可插拔性,使计算框架可以更换,所以就出现了spark和hadoop的合作即利用hadoop的hdfs来存储数据,用spark来计算数据,大大提升了计算效率。

Spark计算快的原因

1.基于内存计算;

2.基于DAG(有向无环图);

3.基于lineage;

MR计算慢的原因

  1. MapReduce在进行过程中首先需要从hdfs中获取数据,从而进行了一次IO操作,然后在shuffle过程中又进行了一次IO操作,最后在reduce阶段还需要进行一次IO操作,也就是说进行一次mr计算要进行三次IO操作,从而大大降低了计算效率。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值