OutputFormat的自我理解

主要接口

1, getRecordWriter(FileSystem ignored, JobConf job, String name, Progressable progress)
这个方法的主要作用是返回一个RecordWriter,把context.write()的键值对写到文件里面。progress作为返回写文件进度的一个回调机制。
2, checkOutputSpecs(FileSystem ignored, JobConf job)
检查输出配置是否正确,主要是指有没有已经存在这个输出。

FileOutputFormat抽象类的部分实现

1,实现了checkOutputSpecs接口, 主要的检查流程如下:
- 检查job中是否配置outDir
- 检查outDir是否存在

2, getOutputCommitter(TaskAttempContext context)
这个方法主要是用同步机制,返回一个FileOutputCommitter。FileOutputCommitter主要做的工作有:(1)创建job的零时输出文件:outDir/_temporary/attempID/_temporary
( 2)默认如果提交成功,会在当前目录生产一个_SUCCESS的空文件。

TextOutputFormat一个FileOutputFormat的实现类

1, 实现了getRecordWriter接口
- 首先判断是否启用压缩
- 返回一个LineRecordWriter实例。

2, 内部类LineRecordWriter
设计技巧,通过静态内部类实现了天然的单例实体,主要方法有同步的write(K key, V value)方法,保证了一次只有一个在写,实现如下:
- 如果key值不为空,写key
- 如果key或者value不为空,写keyVlueSeparator
- 如果value不为空,写value

调用

在Mapper或者Reducer的接口里面都会调用context.write方法,写价值对。这个方法会调用其实现wrapper类的mapContext或者reduceContext的write方法,而这个调用的是一个同一个实例TaskInputOutputContextImpl类的outputFormat.write方法。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值