MapReduce程序开发中的FileInputFormat与TextInputFormat

最新推荐文章于 2022-11-09 11:08:40 发布

一只懒得睁眼的猫

最新推荐文章于 2022-11-09 11:08:40 发布

阅读量7k

点赞数 7

分类专栏： MapReduce MapReduce篇文章标签： MapReduce运行原理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a2011480169/article/details/51051815

版权

MapReduce 同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

4 篇文章 5 订阅

订阅专栏

2016年4月3日20:17:44

MapReduce程序开发中的FileInputFormat与TextInputFormat

作者：数据分析玩家

在MapReduce程序的开发过程中，往往需要用到FileInputFormat与TextInputFormat，但是这两个类究竟是用来做什么的，在源代码的追踪过程中，我们会发现TextInputFormat这个类继承自FileInputFormat，FileInputFormat这个类继承自InputFormat，而在InputFormat的源代码中：

* Split-up the input file(s) into logical {@link InputSplit}s, each of
* which is then assigned to an individual {@link Mapper}.

通过这段源代码：我们可以大致知道：InputFormat这个类会将文件file按照逻辑进行划分，划分成的每一个split切片将会被分配给一个Mapper任务，而在MapReduce的原理运行中：

我们可以发现确实是这样的，文件先被切分成split块，而后每一个split切片对应一个Mapper任务

下面：我们将对FileInputFormat与TextInputFormat这两个类的具体功能进行阐述

FileInputFormat这个类先对输入文件进行逻辑上的划分,以64M为单位,将原始数据从逻辑上分割成若干个split,每个split切片对应一个Mapper任务

对于FileInputFormat这个类，我们需要注意：FileInputFormat这个类只划分比HDFS的block块大的文件,所以FileInputFormat划分的结果是这个文件或者是这个文件中的一部分.如果一个文件的大小比block块小,将不会被FileInputFormat这个类进行逻辑上的划分，此时每一个小文件都会当做一个split块并分配一个Mapper任务,导致效率低下.这也是Hadoop处理大文件的效率要比处理很多小文件的效率高的原因。

当FileInputFormat这个类将文件file切分成block块之后，TextInputFormat这个类随后将每个split块中的每行记录解析成一个一个的键值对，即<k1,v1>.

综上：我们可以简单理解为FileInputFormat这个类是将文件file切分成split块，而TextInputFormat这个类是负责将每一行记录解析为键值对<k1,v1>.

2016年4月3日21:13:05

一只懒得睁眼的猫

关注

7
点赞
踩
11

收藏

觉得还不错? 一键收藏
打赏
1
评论
MapReduce程序开发中的FileInputFormat与TextInputFormat

2016年4月3日20:17:44 MapReduce程序开发中的FileInputFormat与TextInputFormat 在MapReduce程序的开发过程中，往往需要用到FileInputFormat与TextInputFormat，但是这两个类究竟是用来做什么的，在源代码的追踪过程中，我们会发现TextInputFormat这个类继承自FileIn
复制链接

扫一扫

专栏目录

一只懒得睁眼的猫

CSDN认证博客专家 CSDN认证企业博客

码龄8年

396: 原创

3万+: 周排名

3万+: 总排名

162万+: 访问

: 等级

1万+: 积分

1238: 粉丝

828: 获赞

231: 评论

1662: 收藏

私信

关注

热门文章

分类专栏

最新评论

Django报错：AttributeError: 'module' object has no attribute 的解决方法
m0_53995931: 一般是model模块没有导入，可以检查下from app01 import models 是否导入，我的错误就是没有导入models，直接用from app01.models import Department引用，一直报错
Django报错：AttributeError: 'module' object has no attribute 的解决方法
m0_53995931: 一般是model模块没有导入，可以检查下from app01 import models 是否导入，我的错误就是没有导入models，直接用from app01.models import Department引用，一直报错
Join中on条件是null的问题讨论
打破砂锅问到底007: mysql join的 on中的左右两个字段中都有 null值的会被过滤掉，因为 null和 null的比较结果都是null,而不是 false, true这样的布尔值
基于MapReduce的手机上网流量统计分析
qq_52768153: 可以发一份数据吗，谢谢您。[email protected]
基于MapReduce的手机上网流量统计分析
左!: 可以发一份数据吗，谢谢。[email protected]

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

一只懒得睁眼的猫 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。