七、Hadoop基本原理总结—MapReduce

一、主要组成

(1)、Job:由客户端向集群提交的一次计算任务。

(2)、Task:集群的最小可执行单位(一个Job将会分为多个Task执行)

(3)、ResourceManager(以下简称RM):管理整个集群的计算资源,主要用于为每一个Job分配计算资源(整个集群只有一个RM)

(4)、Container:资源分配单位,一个Container包括一些CPU和存储资源

(5)、NodeManager(以下简称NM):管理单台服务器的计算资源,类似RM的更细粒度实现(集群中每台服务器有一个NM)。

(6)、ApplicationMaster(以下简称AM):监控每一个Job的执行情况,包括资源申请、Task调度等。

二、MapReduce工作原理

(1)、client调用Job提交接口,Job被提交到集群上

(2)、为了便于标识Job,会首先向RM请求一个唯一ID,并同时检查Job中的输入/输出路径是否存在,如果输入路径不存在,则报错;如果输出路径存在,也会报错(注意别看错了)

(3)、获得唯一ID之后,就把Job所需资源(包括Jar包和输入路径信息)上传到HDFS中(因为分布式环境的原因,需要将这些资源上传到所有节点都能访问到的目录,即这里的HDFS)

(4)、在完成以上步骤之后,则可以真正提交Job到集群中。

(5)、启动一个Job的时候,首先需要启动该Job的AM,所以RM会主动分配NM上的一个Container(一个Container就是一个JVM),用于运行AM守护进程。

(6)、初始化Job,包括启动一些Job运行状态跟踪对象。

(7)、从HDFS中读取第3步上传的输入路径信息(包括输入文件所在的服务器节点信息,一份输入文件可能存储在多台服务器上)。

(8)、根据上一步的文件路径信息,向RM申请所需资源(Container),尽量保证Container和输入文件在同一台服务器上边,能够减小网络IO(即数据本地化)

(9)、AM根据RM分配的Container,向Container所属的NM申请启动Task。

(10)、Container在收到启动命令之后,会首先从HDFS下载Task所需Jar包和缓存文件等

(11)、最后就是Task的正式运行阶段了。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值