七、Hadoop基本原理总结—MapReduce

最新推荐文章于 2022-06-20 20:53:35 发布

嘻哈吼嘿呵

最新推荐文章于 2022-06-20 20:53:35 发布

阅读量245

点赞数

分类专栏： # Hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/s294878304/article/details/98382842

版权

Hadoop 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

一、主要组成

（1）、Job：由客户端向集群提交的一次计算任务。

（2）、Task：集群的最小可执行单位（一个Job将会分为多个Task执行）

（3）、ResourceManager（以下简称RM）：管理整个集群的计算资源，主要用于为每一个Job分配计算资源（整个集群只有一个RM）

（4）、Container：资源分配单位，一个Container包括一些CPU和存储资源

（5）、NodeManager（以下简称NM）：管理单台服务器的计算资源，类似RM的更细粒度实现（集群中每台服务器有一个NM）。

（6）、ApplicationMaster（以下简称AM）：监控每一个Job的执行情况，包括资源申请、Task调度等。

二、MapReduce工作原理

（1）、client调用Job提交接口，Job被提交到集群上

（2）、为了便于标识Job，会首先向RM请求一个唯一ID，并同时检查Job中的输入/输出路径是否存在，如果输入路径不存在，则报错；如果输出路径存在，也会报错（注意别看错了）

（3）、获得唯一ID之后，就把Job所需资源（包括Jar包和输入路径信息）上传到HDFS中（因为分布式环境的原因，需要将这些资源上传到所有节点都能访问到的目录，即这里的HDFS）

（4）、在完成以上步骤之后，则可以真正提交Job到集群中。

（5）、启动一个Job的时候，首先需要启动该Job的AM，所以RM会主动分配NM上的一个Container（一个Container就是一个JVM），用于运行AM守护进程。

（6）、初始化Job，包括启动一些Job运行状态跟踪对象。

（7）、从HDFS中读取第3步上传的输入路径信息（包括输入文件所在的服务器节点信息，一份输入文件可能存储在多台服务器上）。

（8）、根据上一步的文件路径信息，向RM申请所需资源（Container），尽量保证Container和输入文件在同一台服务器上边，能够减小网络IO（即数据本地化）

（9）、AM根据RM分配的Container，向Container所属的NM申请启动Task。

（10）、Container在收到启动命令之后，会首先从HDFS下载Task所需Jar包和缓存文件等

（11）、最后就是Task的正式运行阶段了。

嘻哈吼嘿呵

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。