【Hadoop---12】MapReduce：InputFormat『TextInputFormat | CombineFileInputFormat』

ElegantCodingWH

已于 2022-10-18 20:39:07 修改

阅读量442

点赞数

分类专栏： # Hadoop 文章标签： hadoop mapreduce 大数据

于 2022-10-18 20:19:46 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43546676/article/details/127374417

版权

Hadoop 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

文章目录

1. InputFormat阶段流程
2. InputFormat与其子类关系图
3. TextInputFormat(默认)
4. CombineFileInputFormat

1. InputFormat阶段流程

InputFormat阶段是MapReduce的一个阶段。

其详细流程见：MapReduce详细流程

2. InputFormat与其子类关系图

在这里插入图片描述

接下来主要介绍以下两个类的切片机制和读取机制：TextInputFormat类和 CombineFileInputFormat

3. TextInputFormat(默认)

假如集群中有n台主机，有一个 job 在 map 阶段需要 k 个 MapTask进行处理，那么会调用 k 台主机进行处理。

所以，MapTask 的并行度决定 Map 阶段的任务处理并发度，进而影响到整个 Job 的处理速度。

那么问题来了？怎么判断一个job应该分成几个MapTask？？？

先理解两个概念：

数据块：Block 是 HDFS 物理上把数据分成一块一块，它是 HDFS 存储数据的单元。
数据切片：数据切片只是在逻辑上对输入进行分片，并不会在磁盘上将其切分成片进行存储。一个切片会对应启动一个 MapTask

3.1 切片机制

默认逐个对job提交的每个数据文件按照splitSize大小切片。默认splitSize的值就是块大小，其计算公式为：。

比如：

注意：如果文件小于块大小，那么会表现为按文件切片。
每次切片时，都要判断切完剩下的部分是否大于块的1.1倍，不大于1.1倍就划分一块切片。【主要用于判断最后剩余的部分切还是不切】

3.2 读取机制

对于每个MapTask一行一行的读取。

key：离文件开始处的偏移量。
value：为该行的内容。

3.3 如何设置？

默认使用TextInputFormat切片机制，故不需要设置。

job如何输入多个文件：

如何查看切了几片：

4. CombineFileInputFormat

CombineFileInputFormat用于小文件多的场景。

4.1 切片机制

先将文件按字典顺序由小到大排序
对每个文件按maxInputSplitSize(默认等于4)进行分割成更多更小的文件
然后将小文件结合起来做为一个片

4.2 读取机制

和TextInputFormat一样。

4.3 如何设置？

如何使用CombineTextInputFormat进行切片？如何设置maxInputSplitSize大小？
在这里插入图片描述

ElegantCodingWH

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
【Hadoop---12】MapReduce：InputFormat『TextInputFormat | CombineFileInputFormat』

1. InputFormat与其子类关系图2. TextInputFormat(默认)2.1 切片机制2.2 读取机制2.3 如何设置？3. CombineFileInputFormat3.1 切片机制3.2 读取机制3.3 如何设置？
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

ElegantCodingWH 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。