Spark速度比MapReduce快,不仅是内存计算

本文对比分析了Spark和MapReduce两大分布式计算框架。Spark利用内存计算和RDD特性大幅提升处理速度,减少磁盘IO,实现高效任务调度。同时,Spark支持灵活的执行策略和数据格式,优于MapReduce的批处理设计。
摘要由CSDN通过智能技术生成

作为Hadoop的分布式计算框架,MapReduce扮演着分布式计算的任务,适用于离线批计算任务。Spark本身不具备存储数据功能,通常基于HDFS。我们经常会在各类文章中看到类似这样的描述:Spark是基于内存计算的,其速度远快于Hadoop的MapReduce。本文旨在讨论这一结论背后的原因。

一、Spark内存计算 VS MapReduce读写磁盘

  • MapReduce:MapReduce通常需要将计算的中间结果写入磁盘。map进程和reduce进程需要读取指定位置的数据作为输入,如果不将中间结果写入磁盘以保证可靠存储,一旦中间结果丢失或者损坏,MapReduce没有机制能够恢复中间结果。此外,一个job可能涉及到多个stage,而每个stage的处理结果都需要存储到HDFS中,这就必然导致频繁的磁盘IO;

  • Spark:Spark不需要将计算的中间结果写入磁盘,这得益于Spark的RDD(弹性分布式数据集)和DAG(有向无环图),前者是Spark中引入的一种只读的、可扩展的数据结构,后者则记录了job的stage以及在job执行过程中父RDD和子RDD之间的依赖关系。中间结果能够以RDD的形式存放在内存中,一旦Job中的某个RDD丢失或者损坏,则可以根据DAG来重新计算得到该RDD。此外,在Spark中一个job的多个stage任务可以串联或者并联执行,stage的中间结果不需写入HDFS。

我们知道频繁的磁盘IO非常影响系统的处理性能,而基于内存计算则大大提升了处理性能。

二、其他区别

2.1 任务调度

  • Hadoop的MapReduce是针对大文件的批处理而设计的,延迟较高;

  • Hadoop的MapReduce的Map Task和Reduce Task都是进程级别的,而Spark Task则是基于线程模型的(而mapreduce 中的 map 和 reduce 都是 jvm 进程,每次启动都需要重新申请资源,启动时间大概1s;想象一下如果是8096个block,那么单独启动map进程事件就需要8096秒,非常影响效率;);

  • Spark通过复用线程池中的线程来减少启动、关闭task所需要的开销。

2.2 执行策略

  • MapReduce在shuffle前需要花费大量时间进行排序;

  • Spark在shuffle时只有部分场景才需要排序,支持基于Hash的分布式聚合,更加省时;

2.3 数据格式和内存布局

  • MapReduce Schema on Read处理方式会引起较大的处理开销;

  • Spark RDD能支持粗粒度写操作,对于读操作则可以精确到每条record,因此RDD可以用来作为分布式索引。此外用户可以自定义分区策略,如Hash分区等。Shark和Spark SQL在Spark的基础上实现了列存储和列存储压缩。

往期推荐 

1、干货 | Kafka 内核知识梳理,附思维导图

2、MapReduce Shuffle 和 Spark Shuffle 结业篇

3、HBase原理 | HBase Compaction介绍与参数调优

4、实时数仓 | 你想要的数仓分层设计与技术选型

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值