hadoop源码阅读（一）（InputFormat源码）

水花一直飞

已于 2022-05-14 15:54:52 修改

阅读量957

点赞数 2

分类专栏： hadoop 大数据 mapreduce 文章标签： hadoop

于 2022-04-27 22:53:23 首次发布

本文链接：https://blog.csdn.net/m0_67991849/article/details/124460651

版权

大数据同时被 3 个专栏收录

18 篇文章 1 订阅

订阅专栏

hadoop

10 篇文章 0 订阅

订阅专栏

mapreduce

6 篇文章 0 订阅

订阅专栏

InputFormat

Inputformat的介绍
1. InputFormat的继承树

Inputformat的介绍

在这里插入图片描述

官方英文文档：大致的意思是InputFormat是MapReduce框架用于处理输入的job
1.它用来验证job的输入规范
2.将输入文件切开，每个被切开的文件被分配到单独的Mapper中
3.提供RecordReader（抽象方法），用来收集Mapper的输入数据，说人话就是怎么读取数据就由这个RecordReader方法来提供的
4.FileInputFormat是最常的子类等等

1. InputFormat的继承树

查看InputFormat类

在这里插入图片描述

查看父子类关系(ctrl+h)

在这里插入图片描述

在这里我们主要看的是InputFormat和FileInputFormat和TextInputFormat，先从InputFormat开始看。

Alt+7查看类中的所有方法

在这里插入图片描述

1.1 InputFormat源码：

public abstract class InputFormat<K, V> {

	public abstract List<InputSplit> getSplits(JobContext context
) throws IOException, InterruptedException;
          
    public abstract RecordReader<K,V> createRecordReader(InputSplit
split,TaskAttemptContext context) throws IOException, InterruptedException;      
}

InputFormat类是抽象类，getSplits和createRecordReader都被声明成抽象方法

getSplits：用来生成切片信息
createRecordReader：用来创建RecordReader对象。RecordReader是用来读取数据的。

1.2 FileInputFormat源码：

在这里插入图片描述

官方英文文档

FileInputFormat类是抽象类继承InputFormat重写了它的getSplits的抽象方法：

在这里插入图片描述

1.3 TextInputFormat源码

在这里插入图片描述

TextInputFormat作为FileInputFormat默认使用的InputFormat，它重写了createRecordReader，在createRecordReader方法内返回了一个LineRecordReader对象。LineRecordReader是真正用来读取数据的类，我们走进LineRecordReader。

在这里插入图片描述