Job作业执行流程

Job作业提交流程:

1、我们在进行MR的编写完成后,

a、会调用job.waitForCompletion(boolean)来将作业提交到集群并等待作业完成。

b、在该方法内部,首先会判断Job状态并调用submit()方法进行提交,将任务提交到集群后会立刻返回;

c、提交后 , 会判断 waitForCompletion() 的参数布尔变量 , 若为 true 的话 , 表示在作业进行的过程中会实时地进行状态监控并打印输出其状态 , 调用 monitorAndPrintJob() 。否则 , 首先会获取线程休眠间隔时间 ( 默认为 5000ms), 其次循环调用 isComplete() 方法来获取任务执行状态 , 未完成的话 , 启动线程休眠配置指定的时间 , 如此循环 , 知道任务执行完成或则失败。


2、submit()方法内部

1、确保作业状态;

2、调用setUserNewAPI()来进行api设置 ;

3、调用connect()方法连接RM(ResourceManager);

4、获取JobSubmitter对象,getJobSubmitter(fs,client)

5、submitter 对象进行提交作业的提交: submitJobInternal Job.this,cluster

3、在连接RM方法connnect()内部,

a、 会创建 Cluster 实例 ,Cluster 构造函数内部重要的是初始化部分

b、 在初始化函数内部 , 使用 java.util.ServiceLoader 创建客户端代理 , 目前包含两个代理对象 ,LocalClientProtocolProvider( 本地作业 ) YarnClientProtocolProvider yarn 作业) , 此处会根据 mapreduce.framework.name 的配置创建相应的客户端。

通过LocalClientProtocolProvider创建LocalJobRunner对象,在此就不进行详细说明了。


通过YarnClientProtocolProvider创建YarnRunner对象,YarnRunner保证当前JobClient运行在Yarn上。


c、 YarnRunner 实例化的过程中 , 创建客户端代理的流程如下:

Cluster->ClientProtocol(YarnRunner)->ResourceMgrDelegate->client(YarnClientImpl)->rmClient(ApplicationClientProtocol)

YarnClientImpl serviceStart 阶段会创建 RPC 代理,注意其中的协议

Cluster:主要是提供一个访问map/reduce集群的途径;

YarnRunner: 保证当前JobClient运行在Yarn,在实例化的过程中创建ResourceMgrDelegate;

ResourceMgrDelegate:主要负责与RM进行信息交互;

YarnClientImpl:主要负责实例化rmClient;

rmClient:是各个客户端与RM交互的协议,主要是负责提交或终止Job任务和获取信息(applicationscluster metricsnodesqueuesACLs)


4、接下来,看最核心的部分,JobSubmitter.submitJobInternal(Job,Cluster),主要负责将作业提交到系统上运行,主要包括:

a、校验作业的输入输出checkSpecs(Job),主要是确保输出目录是否设置且在FS上不存在;

b、 通过 JobSubmissionFiles 来获取 Job 运行时资源文件存放的目录 , 属性信息 key

yarn.app.mapreduce.am.staging-dir,默认的目录为/tmp/hadoop-yarn/staging/hadoop/.staging/

JobSubmissionFiles.getStagingDir():在方法内部进行判断若目录存在则判断其所属关系及操作权限;不存在的话,创建并赋予权限700;

c、为缓存中的Job组织必须的统计信息,设置主机名及地址信息,获取jobId,获取提交目录,/tmp/hadoop-yarn/staging/root/.staging/job_1395778831382_0002;

d、拷贝作业的jar和配置信息到分布式文件系统上的map-reduce系统目录,调用copyAndConfigureFiles(job,submitJobDir),主要是拷贝-libjars,-files,-archives属性对应的信息至submitJobDir;

e、计算作业的输入分片数,调用writeSplits()job.split,job.splitmetainfo;

f、调用writeConf(conf,submitJobFile)job.xml文件写入到JobTracker的文件系统;

g、提交作业到JobTracker并监控器状态,调用yarnRunner对象的submitJob(jobId,submitJobDir,job.getCredentials())


5、真正的提交在YarnRunner对象的submitJob(…)方法内部:


问题1:在进行MR编写时,Hadoop 2.x若引用了hadoop-*-mr1-*.jar的话,在使用Java进行调用的时候,会使用本地方式运行;而使用hadoop jar进行调用时,才会提交到yarn环境上运行。


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值