Job作业提交流程:
1、我们在进行MR的编写完成后,
a、会调用job.waitForCompletion(boolean)来将作业提交到集群并等待作业完成。
b、在该方法内部,首先会判断Job状态并调用submit()方法进行提交,将任务提交到集群后会立刻返回;
c、提交后 , 会判断 waitForCompletion() 的参数布尔变量 , 若为 true 的话 , 表示在作业进行的过程中会实时地进行状态监控并打印输出其状态 , 调用 monitorAndPrintJob() 。否则 , 首先会获取线程休眠间隔时间 ( 默认为 5000ms), 其次循环调用 isComplete() 方法来获取任务执行状态 , 未完成的话 , 启动线程休眠配置指定的时间 , 如此循环 , 知道任务执行完成或则失败。
2、submit()方法内部
1、确保作业状态;
2、调用setUserNewAPI()来进行api设置 ;
3、调用connect()方法连接RM(ResourceManager);
4、获取JobSubmitter对象,getJobSubmitter(fs,client)
5、submitter 对象进行提交作业的提交: submitJobInternal ( Job.this,cluster )3、在连接RM方法connnect()内部,
通过LocalClientProtocolProvider创建LocalJobRunner对象,在此就不进行详细说明了。
通过YarnClientProtocolProvider创建YarnRunner对象,YarnRunner保证当前JobClient运行在Yarn上。
Cluster->ClientProtocol(YarnRunner)->ResourceMgrDelegate->client(YarnClientImpl)->rmClient(ApplicationClientProtocol)
在 YarnClientImpl 的 serviceStart 阶段会创建 RPC 代理,注意其中的协议Cluster:主要是提供一个访问map/reduce集群的途径;
YarnRunner: 保证当前JobClient运行在Yarn上,在实例化的过程中创建ResourceMgrDelegate;
ResourceMgrDelegate:主要负责与RM进行信息交互;
YarnClientImpl:主要负责实例化rmClient;
rmClient:是各个客户端与RM交互的协议,主要是负责提交或终止Job任务和获取信息(applications、cluster metrics、nodes、queues和ACLs)
4、接下来,看最核心的部分,JobSubmitter.submitJobInternal(Job,Cluster),主要负责将作业提交到系统上运行,主要包括:
a、校验作业的输入输出checkSpecs(Job),主要是确保输出目录是否设置且在FS上不存在;
yarn.app.mapreduce.am.staging-dir,默认的目录为/tmp/hadoop-yarn/staging/hadoop/.staging/
JobSubmissionFiles.getStagingDir():在方法内部进行判断若目录存在则判断其所属关系及操作权限;不存在的话,创建并赋予权限700;
c、为缓存中的Job组织必须的统计信息,设置主机名及地址信息,获取jobId,获取提交目录,如/tmp/hadoop-yarn/staging/root/.staging/job_1395778831382_0002;
d、拷贝作业的jar和配置信息到分布式文件系统上的map-reduce系统目录,调用copyAndConfigureFiles(job,submitJobDir),主要是拷贝-libjars,-files,-archives属性对应的信息至submitJobDir;
e、计算作业的输入分片数,调用writeSplits()写job.split,job.splitmetainfo;
f、调用writeConf(conf,submitJobFile)将job.xml文件写入到JobTracker的文件系统;
g、提交作业到JobTracker并监控器状态,调用yarnRunner对象的submitJob(jobId,submitJobDir,job.getCredentials())
5、真正的提交在YarnRunner对象的submitJob(…)方法内部:
问题1:在进行MR编写时,Hadoop 2.x若引用了hadoop-*-mr1-*.jar的话,在使用Java进行调用的时候,会使用本地方式运行;而使用hadoop jar进行调用时,才会提交到yarn环境上运行。