hadoop中mapreducer的数据输入(InputFormat)原理详解

查看了hadoop 的源代码,终于搞明白MapReducer作业的数据输入原理,成果如下:
Hadoop中MapReducer的作业的输入通过InputFormat接口提供;

InputFormat提供的功能如下:将输入的文件,分成逻辑上的切片InputSplit,每一个InputSplit会分配给一个Mapper处理,RecordReader负责从InputSplit中读取键值对(一个键值对属于一条记录),然后交给InputSplit对应的Mapper处理,内部实现就是典型的生产者消费者模式了。因此InputSplit表示需要被一个Mapper处理的数据
RecordReader读取的Record是交给Mapper执行一次map方法来处理的数据

TextInputFormat实现细节
TextInputFormat继承了FileInputFormat
在getSplit方法中,会将输入的数据即文件切成片,片信息存储在FileSplite中,分片的规则按照HDFS文件系统对文件分片的规则,FileSplite中会维护该块所属文件的地址,起始字节数,长度,以及块在文件系统中存储的节点的主机名称。
使用createRecordReader(InputSplit split,  TaskAttemptContext context)方法将每一个FileSplite封装到RecordReader中,RecorderReader成为为Mapper提供输入的工具,一个RecorderReader对应一个Mapper, 一个FileSplite对应一个RecorderReader
对于每一个Split需要用RecordReader去读取,默认是LineRecordReader读取,即每次读取一行,即读取上一个"\n"下一个"\n"之间的数据
LineRecordReader中维护有SplitLineReader,FSDataInputStream对象,

在RecordReader中跨Split的行是这样处理的:如果不是第一个文件块,通常会丢掉该块的第一条记录,如果不是最后一个文件块,通常会从下一个文件块额外读取一条记录
这样处理,如果有一条记录是跨行记录,则作为前一个文件块的最后一行,如果没有跨行记录,则下一个文件块的第一条记录实际是由上一个文件块读取
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值