Spark速度比MapReduce快，不仅是内存计算

最新推荐文章于 2024-09-24 14:16:36 发布

大数据技术架构

最新推荐文章于 2024-09-24 14:16:36 发布

阅读量1.3k

点赞数

分类专栏： Spark

原文链接：https://mp.weixin.qq.com/s/e8hW244UYiq-4tn0_n463w

版权

12 篇文章 1 订阅

订阅专栏

本文对比分析了Spark和MapReduce两大分布式计算框架。Spark利用内存计算和RDD特性大幅提升处理速度，减少磁盘IO，实现高效任务调度。同时，Spark支持灵活的执行策略和数据格式，优于MapReduce的批处理设计。

摘要由CSDN通过智能技术生成

作为Hadoop的分布式计算框架，MapReduce扮演着分布式计算的任务，适用于离线批计算任务。Spark本身不具备存储数据功能，通常基于HDFS。我们经常会在各类文章中看到类似这样的描述：Spark是基于内存计算的，其速度远快于Hadoop的MapReduce。本文旨在讨论这一结论背后的原因。

MapReduce：MapReduce通常需要将计算的中间结果写入磁盘。map进程和reduce进程需要读取指定位置的数据作为输入，如果不将中间结果写入磁盘以保证可靠存储，一旦中间结果丢失或者损坏，MapReduce没有机制能够恢复中间结果。此外，一个job可能涉及到多个stage，而每个stage的处理结果都需要存储到HDFS中，这就必然导致频繁的磁盘IO；
Spark：Spark不需要将计算的中间结果写入磁盘，这得益于Spark的RDD（弹性分布式数据集）和DAG（有向无环图），前者是Spark中引入的一种只读的、可扩展的数据结构，后者则记录了job的stage以及在job执行过程中父RDD和子RDD之间的依赖关系。中间结果能够以RDD的形式存放在内存中，一旦Job中的某个RDD丢失或者损坏，则可以根据DAG来重新计算得到该RDD。此外，在Spark中一个job的多个stage任务可以串联或者并联执行，stage的中间结果不需写入HDFS。

我们知道频繁的磁盘IO非常影响系统的处理性能，而基于内存计算则大大提升了处理性能。

Hadoop的MapReduce是针对大文件的批处理而设计的，延迟较高；
Hadoop的MapReduce的Map Task和Reduce Task都是进程级别的，而Spark Task则是基于线程模型的（而mapreduce 中的 map 和 reduce 都是 jvm 进程，每次启动都需要重新申请资源，启动时间大概1s；想象一下如果是8096个block，那么单独启动map进程事件就需要8096秒，非常影响效率；）；
Spark通过复用线程池中的线程来减少启动、关闭task所需要的开销。

MapReduce Schema on Read处理方式会引起较大的处理开销；
Spark RDD能支持粗粒度写操作，对于读操作则可以精确到每条record，因此RDD可以用来作为分布式索引。此外用户可以自定义分区策略，如Hash分区等。Shark和Spark SQL在Spark的基础上实现了列存储和列存储压缩。

往期推荐