Spark学习笔记之(一):MR与Spark的区别

既然决定了仔细学习Spark,笔者决定从最基础知识点开始记录。
本文仅列出了MR与Spark较大的区别点,实际mr与Spark为完全不同的大数据计算组件,需要我们在实践中探索使用。

1.计算速度

MR与Spark的根本区别(关键优化)在于Spark除了需要shuffle的计算,其他是将结果/中间结果持久化到内存中,而MR是都需要落地到磁盘(map.reduce落地都写),因此Spark格外适用于频繁读写中间结果的迭代计算

而MR最终落地HDFS,Spark 如果落地,会落地节点磁盘,因此如果只是简单的非迭代计算,MR最终只会比Spark多消耗一部分(HDFS不同datanode间的)网络IO。

所以如果有项目需求为简单的非迭代计算,以及内存资源紧张的情景,仍然可以使用MR。

1.1磁盘I/O

因此,速度区别之一在于磁盘I/O,即:
MapReduce 的 map 端将中间输出和结果存储在磁盘中,reduce 端又需要从磁盘读写中间结果,势必造成磁盘IO成为瓶颈。
Spark允许将map端的中间输出和结果存储在内存中,reduce端在拉取中间结果时避免了大量的磁盘 I/O。

1.2并行度

此外,速度区别之二在于任务的并行度不同:
Spark会增加任务的并行度从而提高速度:由于将中间结果写到磁盘与从磁盘读取中间结果属

  • 4
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值