不是解释源码,只是把过程总结
一 读取阶段
-
把输入文件做逻辑切分,切分成split
读取文件列表
按照规则将文件进行逻辑切分(剩余文件大小/split大小>1.1)
Split包含的属性:
Path
起始位置
大小
所在主机
把所有生成的split添加到集合中 -
为每一个split创建RecordReader
recordReader的作用是把每个split中的数据解析成record,即<k1,v1>;
如果一行数据被且分到两个split中,会出问题,处理方法就是如果不是第一个split,就不读第一行,同时读取下一个split的第一行。
二 写入阶段
- Outputformat
将输出流和数据传递给LineRecordWriter;
先判断输出目录存在否,是就报异常;
调用write方法,使用OutputCommitter获取输出数据提交器,负责将数据写入数据目录。