Hadoop权威指南读书笔记(5) - MapReducer工作过程

最新推荐文章于 2024-07-02 00:00:00 发布

labud

最新推荐文章于 2024-07-02 00:00:00 发布

阅读量1.2k

点赞数

分类专栏： Hadoop 大数据文章标签： hadoop mapreduce 读书笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/labud/article/details/52626060

版权

　　本文对应原书中第七章。其中的知识对于进一步调优MapReduce非常重要。我们先介绍MapReduce作业的运行过程，再介绍它的容错机制，然后会介绍其中的Shffle和Sort过程。

MapReduce工作过程

　　我们先用一张图来对整个过程有一个整体把握：
这里写图片描述
　　这里面有5个组件:

client：提交MR作业
Yarn Resource Manager：协同调度集群的全部资源
Yarn Node Manager：启动和监视集群中的容器
MapReduce Application Master：协同MR的tasks。它们都运行在由resource manager分配然后由node manager管理的容器中。
分布式文件系统

一个MR作业由如下几个过程组成：

作业提交

　　Job实例调用submit()方法提交一个作业，这个方法会创建一个JobSubmitter实例(图中第1步)。提交完作业后，waitForCompletion(如果代码中调用了的话)方法会每隔一秒查看作业的状态并且将变化(如果有的话)打印到终端。

　　在JobSubmitter中会做如下事情：

向Yarn RM中请求一个新的应用ID，分配给这个MR作业(第2步)。
检查作业的输出需求。例如，如果输出目录已经存在，则不提交作业并且抛出一个异常。
计算作业的输入切片(准确说是切片信息)。如果切片不能被计算出来(例如输入目录不存在)，同样作业不会被提交并且发出一个异常。
拷贝各种作业资源(例如作业的jar包，配置文件，切片信息等)到分布式文件系统下的一个被命名为job ID的目录下(第3步)。
调用submitApplicatiion方法提交作业到Yarn RM(第4步)。

作业初始化

　　当Yarn RM收到了submitApplicatiion方法中的请求。它将这个请求交给Yarn调度器。调度器会分配一个容器，然后Yarn RM在这个容器中启动一个AM(在NM管理下)(5a和5b)。

　　AM是一个java应用，它的主类叫做MRAppMaster。这个类会创建一些记录对象，用来获取来自任务的报告(第6步)。然后会从分布式文件系统中获取切片信息(第7步)。为每一个分片创建一个map任务，而reduce任务的个

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

labud CSDN认证博客专家 CSDN认证企业博客

码龄14年

13: 原创

33万+: 周排名

129万+: 总排名

3万+: 访问

: 等级

558: 积分

12: 粉丝

4: 获赞

8: 评论

21: 收藏

私信

关注

热门文章

分类专栏

面试 3篇
ACM-树 1篇
ACM-动态规划
数据结构 3篇
c++ 13篇
ACM-图 1篇
Hadoop 5篇
大数据 5篇

最新评论

数位DP 浅谈(hihocoder 1033:交错和)
入门新手123: 代码第51行：if(!end_flag) dp[len][dig + (begin_zero?0:10)][sum+200] = t; 记录数据时为什么dig + (begin_zero?0:10)而不直接是dig 不是0-9么？
数位DP 浅谈(hihocoder 1033:交错和)
qq_28251907 回复 lapushion: 不用，dp是全局的，其实数位dp本来是先求dp的，然后根据n来进行状态转移，但是我们这里将这两步合在一起了，所以dp求出来的值之后是可以使用的。可以看看《算法合集之浅谈数位dp》
数位DP 浅谈(hihocoder 1033:交错和)
qq_28251907: int end = end_flag? bits[len-2] : 9; 为什么是len - 2啊
数位DP 浅谈(hihocoder 1033:交错和)
qq_28251907 回复 clogos: int end = end_flag? bits[len-2] : 9; 为什么是len - 2,而不是len - 1
数位DP 浅谈(hihocoder 1033:交错和)
lapushion: node t; t.n = -1; t.s = 0; rep(i,0,21) rep(j,0,20) rep(k,0,400) dp[i][j][k] = t; 这几句话应该放在int solve(ll n, int s)函数中吧，不然下次调用的时候dp数组里面的内容并没有清空。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。