Spark和MapReduce任务计算模型

最新推荐文章于 2024-03-11 14:53:51 发布

大数据学习与分享

最新推荐文章于 2024-03-11 14:53:51 发布

阅读量535

点赞数 1

分类专栏：大数据 Spark Hadoop 文章标签： spark mapreduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42164977/article/details/105583728

版权

【前言：本文主要从任务处理的运行模式为角度，分析Spark计算模型，希望帮助大家对Spark有一个更深入的了解。同时拿MapReduce和Spark计算模型做对比，强化对Spark和MapReduce理解】

从整体上看，无论是Spark还是MapReduce都是多进程模型。如，MapReduce是由很多MapTask、ReduceTask等进程级别的实例组成的；Spark是由多个worker、executor等进程级别实例组成。但是当细分到具体的处理任务，MapReduce仍然是多进程级别，这一点在文章《详解MapReduce》已有说明。而Spark处理任务的单位task是运行在executor中的线程，是多线程级别的。

对于多进程，我们可以很容易控制它们能够使用的资源，并且一个进程的失败一般不会影响其他进程的正常运行，但是进程的启动和销毁会占用很多时间，同时该进程申请的资源在进程销毁时也会释放，这就造成了对资源的频繁申请和释放也是很影响性能的，这也是MapReduce广为诟病的原因之一。

对于MapReduce处理任务模型，有如下特点：

1.每个MapTask、ReduceTask都各自运行在一个独立的JVM进程中，因此便于细粒度控制每个task占用的资源（资源可控性好）

2.每个MapTask/ReduceTask都要经历申请资源 -> 运行task -> 释放资源的过程。强调一点：每个MapTask/ReduceTask运行完毕所占用的资源必须释放，并且这些释放的资源不能够为该任务中其他task所使用

3.可以通过JVM重用在一定程度上缓解MapReduce让每个task动态申

最低0.47元/天解锁文章

大数据学习与分享

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark和MapReduce任务计算模型

【前言：本文主要从任务处理的运行模式为角度，分析Spark计算模型，希望帮助大家对Spark有一个更深入的了解。同时拿MapReduce和Spark计算模型做对比，强化对Spark和MapReduce理解】从整体上看，无论是Spark还是MapReduce都是多进程模型。如，MapReduce是由很多MapTask、ReduceTask等进程级别的实例组成的；Spark是由多个worker、ex...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。