【Spark六十三】Hadoop MapReduce Task的进程模型与Spark Task的线程模型

最新推荐文章于 2022-06-23 16:07:25 发布

axxbc123

最新推荐文章于 2022-06-23 16:07:25 发布

阅读量698

点赞数 4

分类专栏： Spark 文章标签：大数据数据结构与算法 epoll

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/axxbc123/article/details/84702288

版权

本文探讨了Hadoop MapReduce的Task进程模型与Spark Task的线程模型，指出MapReduce Task运行在独立的JVM进程中，启动慢但资源分配灵活，而Spark Task在Executor线程中运行，启动快，内存共享高效，但资源控制粒度较粗。总结了两种模型的优劣势，适合的任务类型以及场景。

摘要由CSDN通过智能技术生成

Hadoop的MapReduce的Map Task和Reduce Task都是进程级别的；而Spark Task则是基于线程模型的。

多进程模型和多线程模型

所谓的多进程模型和多线程模型，指的是同一个节点上多个任务的运行模式。无论是MapReduce和Spark，整体上看都是多进程的：MapReduce应用程序是由多个独立的Task进程组成的；Spark应用程序的运行环境是由多个独立的Executor进程(每个应用程序使用一个Executor进程)构建的临时资源池构成的。
多进程模型便于细粒度控制每个任务占用的资源，但会消耗较多的启动时间，不适合运行低延迟类型的作业，这是MapReduce广为诟病的原因之一。而多线程模型则相反，该模型使得Spark很适合运行低延迟类型的作业。

异步并发模型

Apache Spark的高性能一定程度上取决于它采用的异步并发模型（这里指server/driver端采用的模型），这与Hadoop 2.0（包括YARN和MapReduce）是一致的。Hadoop 2.0自己实现了类似Actor的异步并发模型，实现方式是epoll+状态机，而Apache Spark则直接采用了开源软件Akka，该软件实现了Actor模型，性能非常高。尽管二者在server端采用了一致的并发模型，但在任务级别（特指 Spark任务和MapReduce任务）上却采用了不同的并行机制：Hadoop MapReduce采用了多进程模型，而

最低0.47元/天解锁文章

关注

4
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。