[MapReduce] Hadoop1.x和Hadoop2.x的MapReduce架构区别

最新推荐文章于 2019-05-18 11:48:00 发布

weixin_33724570

最新推荐文章于 2019-05-18 11:48:00 发布

阅读量136

点赞数

文章标签：大数据 java 运维

原文链接：https://my.oschina.net/u/947726/blog/744403

版权

hadoop2.x对于计算框架进行改变，这里做一个对比，方便深入的了解mapreduce的运行机制，从而为后面的计算优化做好铺垫。

                                    hadoop 1.x

                                    hadoop 2.x

Yarn 框架相对于老的 MapReduce 框架什么优势呢？我们可以看到：

这个设计大大减小了 JobTracker（也就是现在的 ResourceManager）的资源消耗，并且让监测每一个 Job 子任务 (tasks) 状态的程序分布式化了，更安全、更优美。
在新的 Yarn 中，ApplicationMaster 是一个可变更的部分，用户可以对不同的编程模型写自己的 AppMst，让更多类型的编程模型能够跑在 Hadoop 集群中，可以参考 hadoop Yarn 官方配置模板中的 mapred-site.xml 配置。
对于资源的表示以内存为单位 ( 在目前版本的 Yarn 中，没有考虑 cpu 的占用 )，比之前以剩余 slot 数目更合理。
老的框架中，JobTracker 一个很大的负担就是监控 job 下的 tasks 的运行状况，现在，这个部分就扔给 ApplicationMaster 做了，而 ResourceManager 中有一个模块叫做 ApplicationsMasters( 注意不是 ApplicationMaster)，它是监测 ApplicationMaster 的运行状况，如果出问题，会将其在其他机器上重启。
Container 是 Yarn 为了将来作资源隔离而提出的一个框架。这一点应该借鉴了 Mesos 的工作，目前是一个框架，仅仅提供 java 虚拟机内存的隔离 ,hadoop 团队的设计思路应该后续能支持更多的资源调度和控制 , 既然资源表示成内存量，那就没有了之前的 map slot/reduce slot 分开造成集群资源闲置的尴尬情况。

这里slot是计算资源的一个逻辑单位，原来slot基本上按照cpu来分配的，后面的版本是按照内存来处理的。

转载于:https://my.oschina.net/u/947726/blog/744403