MapReduce框架原理之InputFormat数据输入
目录
1.数据块与数据切片的区别
数据块:Block是HDFS物理上把数据分成一块一块。数据块是HDFS存储数据单位。
数据切片:数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其切分成片进行存储。数据切片是MapReduce程序计算输入数据的单位,一个切片会对应启动一个MapTask。
2.数据切片与MapTask并行度决定机制
a. 一个job的Map阶段并行度由客户端在提交Job时的切片数决定
b. 每一个Split切片分配一个MapTask并行实例处理
c. 默认情况下,切片大小等于块大小
d. 切片时不考虑数据集整体,而是逐个对每个文件单独切片
3.Job提交源码分析
<1>. if (state == JobState.DEFINE) { submit(); 提交运行 } Cluster Provides a way to access information about the map/reduce cluster. 1>.connect(); 创建连接 选择一个环境来进行运行 通过参数来决定是由什么环境运行 mapreduce.framework.name 决定 如果值为yarn 那就是yarn环境 如果值为local 那就是local环境 1.return new Cluster(getConfiguration()); (1)initialize(jobTrackAddr, conf); 初始化方法 [1].initProviderList(); 初始化提供者列表 加载yarn 或者 local 环境 (2)for (ClientProtocolProvider provider : providerList) clientProtocol = provider.create(conf); 创建 <2>.return submitter.submitJobInternal(Job.this, cluster); 提交job运 1.checkSpecs(job); 检查外部路径是否存在 2.Path jobStagingArea = JobSubmissionFiles.getStagingDir(cluster, conf); file:/tmp/hadoop/mapred/staging/ls1047240296/.staging 存放文件 本地模式 存放 切片信息 8个配置文件总和 xxxx.xml yarn模式 存放 切片信息 8个配置文件总和 xxxx.xml jar包 3.JobID jobId = submitClient.getNewJobID(); job.setJobID(jobId); job的唯一标识,获取jobID,并创建job路径 4.copyAndConfigureFiles(job, submitJobDir); 复制和拷贝配置文件 5.int maps = writeSplits(job, submitJobDir); 计算切片,并生成切片 6.writeConf(conf, submitJobFile); 向Stag路径写XML配置文件 7.status = submitClient.submitJob( jobId, submitJobDir.toString(), job.getCredentials()); 真正提交
总结:1.选择环境来进行运行 通过配置文件决定 mapreduce.framework.name 2.需要存放一些关于当前mr的信息 local split+xml yarn split+xml+jar 3.切片的数量决定了map数量
4.切片源码解析
1)程序先找到数据存储的目录
2)开始遍历处理目录下的每一个文件
3)遍历第一个文件a.txt
a.获取文件大小fs.sizeOf
b.计算切片大小
c.默认情况下,切片大小等于块大小
d.开始切,形成第一个切片a.txt—0-128M,第二个切片128-256M,第三个切片256M-300M
e.将切片信息写到一个切片规划文件中
f.整个切片核心在getSplit()中完成
g.InputSplit只记录了切片的元数据信息,如起始位置,长度以及所在的节点列表。
4)提交规划文件到yarn,yarn上的MrAppMaster就可以根据切片规划文件计算开启MapTask个数。
注意:在切片时,每次切片都要判断切完剩下的部分是否大于块的1.1倍,不大于1.1倍就划分一块切片
5.FileInputFormat切片机制
1)按照文件内容的长度进行切片
2)切片大小默认等于block大小
3)切片时不考虑数据整体,而是逐个针对每一个文件单独切片
<1>.long splitSize = computeSplitSize(blockSize, minSize, maxSize); 默认情况下切片大小等于块大小 修改切片值 maxsize 调整比块大小还小 降低切片的大小 minsize 调整比块大小还大 提高切片的大小 <2> while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) { 切片时考虑的 数据倾斜问题 只有大于1.1倍切片大小才会进行切割 对于128.1m 文件 切几块 两块 切几片 1片
6.TextInputFormat
1)FileInputFormat实现类
FileInputFormat常见的接口实现类包括:TextInputFormat、KeyValueTextInputFormat、NLineInputFormat、CombineTextInputFormat和自定义InputFormat等。
2)TextInputFormat
TextInputFormat是默认的FileInputFormat实现类。按行读取每条记录。键是存储该行在整个文件中的起始字节偏移量, LongWritable类型。值是这行的内容,不包括任何行终止符(换行符和回车符),Text类型。
7.CombineTextInputFormat切片机制
框架默认的TextInputFormat切片机制是对任务按文件规划切片,不管文件多小,都会是一个单独的切片,都会交给一个MapTask,这样如果有大量小文件,就会产生大量的MapTask,处理效率极其低下。
1)应用场景:
CombineTextInputFormat用于小文件过多的场景,它可以将多个小文件从逻辑上规划到一个切片中,这样,多个小文件就可以交给一个MapTask处理。
2)虚拟存储切片最大值设置
CombineTextInputFormat.setMaxInputSplitSize(job, 4194304);// 4m
注意:虚拟存储切片最大值设置最好根据实际的小文件大小情况来设置具体的值。
3)切片机制
生成切片过程包括:虚拟存储过程和切片过程二部分。
(1)虚拟存储过程:
将输入目录下所有文件大小,依次和设置的setMaxInputSplitSize值比较,如果不大于设置的最大值,逻辑上划分一个块。如果输入文件大于设置的最大值且大于两倍,那么以最大值切割一块;当剩余数据大小超过设置的最大值且不大于最大值2倍,此时将文件均分成2个虚拟存储块(防止出现太小切片)。
例如setMaxInputSplitSize值为4M,输入文件大小为8.02M,则先逻辑上分成一个4M。剩余的大小为4.02M,如果按照4M逻辑划分,就会出现0.02M的小的虚拟存储文件,所以将剩余的4.02M文件切分成(2.01M和2.01M)两个文件。
(2)切片过程:
(a)判断虚拟存储的文件大小是否大于setMaxInputSplitSize值,大于等于则单独形成一个切片。
(b)如果不大于则跟下一个虚拟存储文件进行合并,共同形成一个切片。
(c)测试举例:有4个小文件大小分别为1.7M、5.1M、3.4M以及6.8M这四个小文件,则虚拟存储之后形成6个文件块,大小分别为:
1.7M,(2.55M、2.55M),3.4M以及(3.4M、3.4M)
最终会形成3个切片,大小分别为:
(1.7+2.55)M,(2.55+3.4)M,(3.4+3.4)M
实例:
在WordcountDriver中增加如下代码,运行程序,并观察运行的切片个数为3。
驱动类中添加代码如下:
// 如果不设置InputFormat,它默认用的是TextInputFormat.class job.setInputFormatClass(CombineTextInputFormat.class); //虚拟存储切片最大值设置4m CombineTextInputFormat.setMaxInputSplitSize(job, 4194304); //虚拟存储切片最大值设置20m CombineTextInputFormat.setMaxInputSplitSize(job, 20971520);