Hadoop提交任务源码分析

hadoop提交流程源码

1、源码流程

在这里插入图片描述

//进入Job类的waitForCompletion()方法
waitForCompletion()

submit();

// 1建立连接
	connect();	
		// 1)创建提交Job的代理
		new Cluster(getConfiguration());
			// (1)判断是本地运行环境还是yarn集群运行环境
			initialize(jobTrackAddr, conf); 

// 2 提交job
submitter.submitJobInternal(Job.this, cluster)

	// 1)创建给集群提交数据的Stag路径
	Path jobStagingArea = JobSubmissionFiles.getStagingDir(cluster, conf);

	// 2)获取jobid ,并创建Job路径
	JobID jobId = submitClient.getNewJobID();

	// 3)拷贝jar包到集群
copyAndConfigureFiles(job, submitJobDir);	
	rUploader.uploadFiles(job, jobSubmitDir);

	// 4)计算切片,生成切片规划文件
writeSplits(job, submitJobDir);
		maps = writeNewSplits(job, jobSubmitDir);
		input.getSplits(job);

	// 5)向Stag路径写XML配置文件
writeConf(conf, submitJobFile);
	conf.writeXml(out);

	// 6)提交Job,返回提交状态
status = submitClient.submitJob(jobId, submitJobDir.toString(), job.getCredentials());

2、提交任务过程中主要事项

在这里插入图片描述

  1. 在connect方法中,主要通过cluster对象提供一种进入访问mr集群的方式。进入Cluster中,再进入initialize(jobTrackAddr,conf)中包含initProviderList();ProviderList中有YarnClient和LocalClient;通过for循环遍历initProviderList(),并验证参数。

    通过参数mapreduce.framework.name来决定是由什么环境运行
    如果值为yarn 那就是yarn环境
    如果值为local 那就是local环境

  2. 通过当前环境去获取提交器,

    • 验证输出路径是否存在;

    • 提供一个staging临时目录;产生jobID;准备创建staging临时目录+jobID路径

    • 在staging临时目录+jobID的临时目录中上传Job.xml配置文件、切片信息、(jar包–yarn模式)

      集群模式:提交jar包

      本地模式:不提交jar包

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

MelodyYN

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值