Hadoop和Spark区别，为什么Spark比Hadoop处理速度快？

最新推荐文章于 2023-08-05 16:02:06 发布

九度-

最新推荐文章于 2023-08-05 16:02:06 发布

阅读量1.6k

点赞数 2

分类专栏： Spark Hadoop 文章标签： hadoop spark mapreduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/aijiudu/article/details/115918368

版权

Spark 同时被 2 个专栏收录

13 篇文章 4 订阅

订阅专栏

5 篇文章 0 订阅

订阅专栏

Hadoop和Spark区别，为什么Spark比Hadoop处理速度快？

一、原理区别

Hadoop	Spark
MapReduce原理	DAG有向无环图更精致的MR实现。

1、Hadoop MapReduce原理

Hadoop作业称为Job，Job分为Map、Shuffle和Reduce阶段，MAP和Reduce的Task都基于JVM进程运行的。MAP阶段：从HDFS读取数据，split文件产生task，通过对应数量的Map处理，map输出的每一个键值对通过key的hash值计算一个partition，数据通过环形缓冲区，sort、spill、merge生成data和index文件；

Reduce阶段：reduce通过Shuffle Copy属于自己的那部分数据，然后sort、spill、merge形成一个大文件，调用reduce函数进行处理。

MapReduce过程详解及其性能优化

2、Spark DAG有向无环图是更精致的MR实现。

Spark任务称为Application，一个Application对应一个SparkContext，可能存在多个job，每触发一次action操作就会产生一个job。这些job可以并行或串行执行，每个Job Driver中的DAGScheduler通过RDD的宽窄依赖关系划分stage，通过TaskSetManger管理当前运行的taskset，Driver向ExecutorBackend发送launchTask交给Executor，Executor收到task执行任务，将其封装在TaskRunner中交给线程池的线程执行。每个stage内部是pipeline方式执行，stage之间会产生shuffle，最后一个stage里面的task叫ResultTask，其它相对后面的都叫ShuffleMapTask。ShuffleMapTask根据具体的ShuffleManager写入具体文件，后会把MapStaus汇报给Driver的MapOutputTracker（会把结果交给ResultTask）；executor的生命周期是和application一样的，即使没有job运行也是存在的，所以task可以快速启动读取内存进行计算。

二、处理速度区别

处理速度：Spark处理速度比Hadoop快10~100倍。

	Hadoop	Spark
原理不同	MapReduce原理	DAG有向无环图更精致的MR实现。
资源使用不同	基于JVM进程	线程复用
中间数据存储不同	基于磁盘进行数据迭代处理	基于内存的数据迭代处理
资源管理方式不同	细粒度资源申请	粗粒度资源申请

Hadoop

（1）MR原理如上，以JVM为对象的并发的map，执行产生文件落盘，Shuffle，交给reduce执行，构造复杂算法不利于算法实现。

（2）基于JVM进程，资源申请释放开销比较大；

（3）基于磁盘进行数据迭代处理，中间结果保存在文件中，提高了可靠性，减少了内存占用，但是也降低了性能；

（4）MapReduce是细粒度资源申请，当提交job的时候，task执行时，自己申请资源，自己释放资源，task执行完毕之后，资源立即会被释放，task执行的慢，job执行的相对比较慢。优点是集群资源得到充分利用，缺点是application执行的相对比较慢。

Spark

（1）是MR更精致的实现，基于DAG有向无环图的计算模式。stage内部是pipeline：无需等待，可最大化使用集群资源；减少OOM发生；可以精准控制每个partition依赖及其内部计算；基于lineage的算子流动式函数编程，节省中间结果产生，并可以最快恢复。

（2）基于线程的复用，轻量级别的；

（3）基于内存的数据迭代处理，充分利用内存，缓存数据，内存中进行数据交换速度快；

（4）spark是粗粒度资源申请，也就是当提交spark application的时候，application会将所有的资源申请完毕，如果申请不到资源就等待，如果申请到资源才执行application，task在执行的时候就不需要自己去申请资源，task执行快，当最后一个task执行完之后task才会被释放。

优点是执行速度快，缺点是不能使集群得到充分的利用

三、容错恢复

Hadoop

Spark

将每次处理后的数据写入磁盘中，对应对系统错误具有天生优势

RDD:弹性分布式数据集（位置感知，容错，负载均衡）

（1）自动进行内存和磁盘数据的切换；

（2）基于lineage的高容错；

（3）task失败会自动进行特定次数的重试；

（4）stage失败也会进行固定次数的重试，而且只计算失败的分片。

四、数据的存储和处理

Hadoop

Spark

提供了HDFS分布式数据存储功能

提供了MapReduce分布式计算

不提供分布式文件存储管理，和其它分布式文件系统集成使用。

提供了分布式计算引擎。

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Hadoop和Spark区别，为什么Spark比Hadoop处理速度快？

h s 原理（并行计算 MR原理） Hadoop作业称为Job，Job分为Map、Shuffle和Reduce阶段，MAP和Reduce的Task都基于JVM进程运行的。MAP阶段：从HDFS读取数据，split文件产生task，通过对应数量的map处理，map输出的每一个键值对通过key的hash值计算一个partition，数据通过环形缓冲区，sort、spill、merge生成data和...
复制链接

扫一扫

专栏目录

九度- CSDN认证博客专家 CSDN认证企业博客

码龄10年

41: 原创

5万+: 周排名

16万+: 总排名

59万+: 访问

: 等级

2687: 积分

347: 粉丝

561: 获赞

112: 评论

2772: 收藏

私信

关注

热门文章

分类专栏

维度建模 1篇
数据仓库 1篇
Kafka 1篇
ES 1篇
Hive 12篇
Scala 2篇
JVM和GC 1篇
MapReduce 4篇
Spark 13篇
Hadoop 5篇
数据分析 1篇
统计学方法 1篇
java
基本操作 1篇

最新评论

箱形图（python画箱线图）
靴子学长: 1 2 2 2 3 4 5？？？如何画呢
Presto如何使用md5
我就是400: 这代码其实可以不用if语句，太麻烦。完全可以写成下面的： md5(to_utf8( concat( coalesce( cast(id as VARCHAR) , '-' ), coalesce( cast(city_id as VARCHAR) , '-' ), coalesce( cast(user_id as VARCHAR) , '-' ), ... ) )) as record_key
JVM架构和GC垃圾回收机制(JVM面试不用愁)
qq_56411602: 大概看完了，写得好好，会再多刷几遍的
JVM架构和GC垃圾回收机制(JVM面试不用愁)
3.1415926: 运行时数据区，应该把元空间给加上
JVM架构和GC垃圾回收机制(JVM面试不用愁)
MAL_007: 比较基础，感觉一般，

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。