hadoop中mapreducer的数据输入（InputFormat）原理详解

最新推荐文章于 2021-09-22 22:49:16 发布

qj19842011

最新推荐文章于 2021-09-22 22:49:16 发布

阅读量1.2k

点赞数

分类专栏： hadoop 文章标签： hadoop InputFormat TextInputFormat RecordReader InputSplit

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qj19842011/article/details/40632241

版权

hadoop 专栏收录该内容

0 篇文章 0 订阅

订阅专栏

查看了hadoop 的源代码，终于搞明白MapReducer作业的数据输入原理，成果如下：

Hadoop中MapReducer的作业的输入通过InputFormat接口提供；

InputFormat提供的功能如下：将输入的文件，分成逻辑上的切片InputSplit，每一个InputSplit会分配给一个Mapper处理，RecordReader负责从InputSplit中读取键值对(一个键值对属于一条记录），然后交给InputSplit对应的Mapper处理，内部实现就是典型的生产者消费者模式了。因此InputSplit表示需要被一个Mapper处理的数据

RecordReader读取的Record是交给Mapper执行一次map方法来处理的数据

TextInputFormat实现细节

TextInputFormat继承了FileInputFormat

在getSplit方法中，会将输入的数据即文件切成片，片信息存储在FileSplite中，分片的规则按照HDFS文件系统对文件分片的规则，FileSplite中会维护该块所属文件的地址，起始字节数，长度，以及块在文件系统中存储的节点的主机名称。

使用createRecordReader(InputSplit split, TaskAttemptContext context)方法将每一个FileSplite封装到RecordReader中，RecorderReader成为为Mapper提供输入的工具，一个RecorderReader对应一个Mapper，一个FileSplite对应一个RecorderReader

对于每一个Split需要用RecordReader去读取，默认是LineRecordReader读取，即每次读取一行，即读取上一个"\n"下一个"\n"之间的数据

LineRecordReader中维护有SplitLineReader，FSDataInputStream对象，

在RecordReader中跨Split的行是这样处理的：如果不是第一个文件块，通常会丢掉该块的第一条记录，如果不是最后一个文件块，通常会从下一个文件块额外读取一条记录

这样处理，如果有一条记录是跨行记录，则作为前一个文件块的最后一行，如果没有跨行记录，则下一个文件块的第一条记录实际是由上一个文件块读取

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop中mapreducer的数据输入（InputFormat）原理详解

mapReducer的作业的输入通过InputFormat接口提供InputFormat提供的功能如下，将输入的文件，分成逻辑上的小段InputSplit，每一个InputSplit会分配给一个Mapper处理RecordReader负责从inputSplit中读取键值对(一个键值对属于一条记录，然后交给一个Mapper处理)inputSplit表示需要被一个Mappe
复制链接

扫一扫

专栏目录

qj19842011 CSDN认证博客专家 CSDN认证企业博客

码龄13年

6: 原创

61万+: 周排名

11万+: 总排名

2万+: 访问

: 等级

299: 积分

2: 粉丝

5: 获赞

4: 评论

18: 收藏

私信

关注

热门文章

分类专栏

Java 4篇
hadoop

最新评论

MinGW64编译OpenCV踩坑
CSDN-Ada助手: 推荐 OpenCV 技能树：https://edu.csdn.net/skill/opencv?utm_source=AI_act_opencv
java中finally与return的执行顺序详解
java修习者回复上善若水-Eric: 确实，但是finally表达式不影响try或者catch子句中return的值
java中finally与return的执行顺序详解
上善若水-Eric: 在执行以下代码的时候，finally中的表达式的执行结果影响了return的结果值 public static int cal(int i){ try { if(i < 10){ i++; } } catch (Exception e) { i--; }finally{ i++; } return i; }
java中finally与return的执行顺序详解
sgyzetrov: http://www.cnblogs.com/lanxuezaipiao/p/3440471.html 这篇博客的观点与你不同,如果finally里有return则直接返回，不管try中是否还有返回语句。可能有理解偏差

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。