主要接口
1, getRecordWriter(FileSystem ignored, JobConf job, String name, Progressable progress)
这个方法的主要作用是返回一个RecordWriter,把context.write()的键值对写到文件里面。progress作为返回写文件进度的一个回调机制。
2, checkOutputSpecs(FileSystem ignored, JobConf job)
检查输出配置是否正确,主要是指有没有已经存在这个输出。
FileOutputFormat抽象类的部分实现
1,实现了checkOutputSpecs接口, 主要的检查流程如下:
- 检查job中是否配置outDir
- 检查outDir是否存在
2, getOutputCommitter(TaskAttempContext context)
这个方法主要是用同步机制,返回一个FileOutputCommitter。FileOutputCommitter主要做的工作有:(1)创建job的零时输出文件:outDir/_temporary/attempID/_temporary
( 2)默认如果提交成功,会在当前目录生产一个_SUCCESS的空文件。
TextOutputFormat一个FileOutputFormat的实现类
1, 实现了getRecordWriter接口
- 首先判断是否启用压缩
- 返回一个LineRecordWriter实例。
2, 内部类LineRecordWriter
设计技巧,通过静态内部类实现了天然的单例实体,主要方法有同步的write(K key, V value)方法,保证了一次只有一个在写,实现如下:
- 如果key值不为空,写key
- 如果key或者value不为空,写keyVlueSeparator
- 如果value不为空,写value
调用
在Mapper或者Reducer的接口里面都会调用context.write方法,写价值对。这个方法会调用其实现wrapper类的mapContext或者reduceContext的write方法,而这个调用的是一个同一个实例TaskInputOutputContextImpl类的outputFormat.write方法。