Job作业执行流程

最新推荐文章于 2024-05-28 17:12:32 发布

小顽童王

最新推荐文章于 2024-05-28 17:12:32 发布

阅读量1.9k

点赞数

分类专栏： hadoop

本文链接：https://blog.csdn.net/wang_ying_198/article/details/50132951

版权

hadoop 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

Job作业提交流程：

1、我们在进行MR的编写完成后,

a、会调用job.waitForCompletion(boolean)来将作业提交到集群并等待作业完成。

b、在该方法内部,首先会判断Job状态并调用submit()方法进行提交,将任务提交到集群后会立刻返回;

c、提交后 , 会判断 waitForCompletion() 的参数布尔变量 , 若为 true 的话 , 表示在作业进行的过程中会实时地进行状态监控并打印输出其状态 , 调用 monitorAndPrintJob() 。否则 , 首先会获取线程休眠间隔时间 ( 默认为 5000ms), 其次循环调用 isComplete() 方法来获取任务执行状态 , 未完成的话 , 启动线程休眠配置指定的时间 , 如此循环 , 知道任务执行完成或则失败。

2、submit()方法内部

1、确保作业状态;

2、调用setUserNewAPI()来进行api设置 ;

3、调用connect()方法连接RM(ResourceManager);

4、获取JobSubmitter对象,getJobSubmitter(fs,client)

5、submitter 对象进行提交作业的提交： submitJobInternal （ Job.this,cluster ）

3、在连接RM方法connnect()内部,

a、会创建 Cluster 实例 ,Cluster 构造函数内部重要的是初始化部分

b、在初始化函数内部 , 使用 java.util.ServiceLoader 创建客户端代理 , 目前包含两个代理对象 ,LocalClientProtocolProvider( 本地作业 ) 和 YarnClientProtocolProvider （ yarn 作业） , 此处会根据 mapreduce.framework.name 的配置创建相应的客户端。

通过LocalClientProtocolProvider创建LocalJobRunner对象,在此就不进行详细说明了。

通过YarnClientProtocolProvider创建YarnRunner对象,YarnRunner保证当前JobClient运行在Yarn上。

c、在 YarnRunner 实例化的过程中 , 创建客户端代理的流程如下：

Cluster->ClientProtocol(YarnRunner)->ResourceMgrDelegate->client(YarnClientImpl)->rmClient(ApplicationClientProtocol)

在 YarnClientImpl 的 serviceStart 阶段会创建 RPC 代理，注意其中的协议

Cluster:主要是提供一个访问map/reduce集群的途径;

YarnRunner: 保证当前JobClient运行在Yarn上,在实例化的过程中创建ResourceMgrDelegate;

ResourceMgrDelegate:主要负责与RM进行信息交互;

YarnClientImpl：主要负责实例化rmClient;

rmClient:是各个客户端与RM交互的协议,主要是负责提交或终止Job任务和获取信息(applications、cluster metrics、nodes、queues和ACLs)

4、接下来,看最核心的部分,JobSubmitter.submitJobInternal(Job,Cluster),主要负责将作业提交到系统上运行,主要包括：

a、校验作业的输入输出checkSpecs(Job),主要是确保输出目录是否设置且在FS上不存在;

b、通过 JobSubmissionFiles 来获取 Job 运行时资源文件存放的目录 , 属性信息 key 为

yarn.app.mapreduce.am.staging-dir,默认的目录为/tmp/hadoop-yarn/staging/hadoop/.staging/

JobSubmissionFiles.getStagingDir():在方法内部进行判断若目录存在则判断其所属关系及操作权限;不存在的话,创建并赋予权限700;

c、为缓存中的Job组织必须的统计信息,设置主机名及地址信息,获取jobId,获取提交目录,如/tmp/hadoop-yarn/staging/root/.staging/job_1395778831382_0002;

d、拷贝作业的jar和配置信息到分布式文件系统上的map-reduce系统目录,调用copyAndConfigureFiles(job,submitJobDir),主要是拷贝-libjars,-files,-archives属性对应的信息至submitJobDir;

e、计算作业的输入分片数,调用writeSplits()写job.split,job.splitmetainfo;

f、调用writeConf(conf,submitJobFile)将job.xml文件写入到JobTracker的文件系统;

g、提交作业到JobTracker并监控器状态,调用yarnRunner对象的submitJob(jobId,submitJobDir,job.getCredentials())

5、真正的提交在YarnRunner对象的submitJob(…)方法内部:

问题1：在进行MR编写时,Hadoop 2.x若引用了hadoop-*-mr1-*.jar的话,在使用Java进行调用的时候,会使用本地方式运行;而使用hadoop jar进行调用时,才会提交到yarn环境上运行。

小顽童王

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Job作业执行流程

Job作业提交流程：1、我们在进行MR的编写完成后,a、会调用job.waitForCompletion(boolean)来将作业提交到集群并等待作业完成。b、在该方法内部,首先会判断Job状态并调用submit()方法进行提交,将任务提交到集群后会立刻返回;c、提交后,会判断waitForCompletion()的参数布尔变量,若为true的话,表示在作业
复制链接

扫一扫

专栏目录