MapReduce框架原理 InputFormat数据输入

最新推荐文章于 2022-03-12 15:12:36 发布

落花雨时

最新推荐文章于 2022-03-12 15:12:36 发布

阅读量132

点赞数

分类专栏：大数据文章标签： hadoop 大数据 java mapreduce

本文链接：https://blog.csdn.net/mengxianglong123/article/details/119440632

版权

大数据专栏收录该内容

107 篇文章 52 订阅

订阅专栏

本文深入探讨了MapReduce的整体架构，重点解析了MapTask的并行度决定机制，指出并非MapTask越多性能越好，它受到数据块和数据切片的影响。同时，详细阐述了Job提交的源码流程，包括建立连接、提交Job、计算切片等关键步骤，为理解Hadoop MapReduce的工作原理提供了清晰的指导。

摘要由CSDN通过智能技术生成

一、MapReduce整体架构

在这里插入图片描述

二、切片与MapTask并行度决定机制

1）问题引出
MapTask的并行度决定Map阶段的任务处理并发度，进而影响到整个Job的处理速度。

思考：1G的数据，启动8个MapTask，可以提高集群的并发处理能力。那么1K的数据，也启动8个MapTask，会提高集群性能吗？MapTask并行任务是否越多越好呢？哪些因素影响了MapTask并行度？

2）MapTask并行度决定机制

数据块：Block是HDFS物理上把数据分成一块一块。数据块是HDFS存储数据单位。

数据切片：数据切片只是在逻辑上对输入进行分片，并不会在磁盘上将其切分成片进行存储。数据切片是MapReduce程序计算输入数据的单位，一个切片会对应启动一个MapTask。

在这里插入图片描述

三、Job提交流程源码和切片源码详解

1）Job提交流程源码详解

waitForCompletion()

submit();

// 1建立连接
	connect();	
		// 1）创建提交Job的代理
		new Cluster(getConfiguration());
			// （1）判断是本地运行环境还是yarn集群运行环境
			initialize(jobTrackAddr, conf); 

// 2 提交job
submitter.submitJobInternal(Job.this, cluster)

	// 1）创建给集群提交数据的Stag路径
	Path jobStagingArea = JobSubmissionFiles.getStagingDir(cluster, conf);

	// 2）获取jobid ，并创建Job路径
	JobID jobId = submitClient.getNewJobID();

	// 3）拷贝jar包到集群
copyAndConfigureFiles(job, submitJobDir);	
	rUploader.uploadFiles(job, jobSubmitDir);

	// 4）计算切片，生成切片规划文件
writeSplits(job, submitJobDir);
		maps = writeNewSplits(job, jobSubmitDir);
		input.getSplits(job);

	// 5）向Stag路径写XML配置文件
writeConf(conf, submitJobFile);
	conf.writeXml(out);

	// 6）提交Job,返回提交状态
status = submitClient.submitJob(jobId, submitJobDir.toString(), job.getCredentials());