LineRecordReader被createRecordReader调用,创建了一个新的实例,请看下面代码:
public RecordReader<LongWritable, Text> createRecordReader(InputSplit split, TaskAttemptContext context) {
String delimiter = context.getConfiguration().get("textinputformat.record.delimiter");
byte[] recordDelimiterBytes = null;
if (null != delimiter) {
recordDelimiterBytes = delimiter.getBytes(Charsets.UTF_8);
}
return new LineRecordReader(recordDelimiterBytes);
}
这里,输入的参数是recordDelimiterBytes,一串字符串,这些字符串是从本地读,且用UTF_8编码方式的。delimiter是定界符,context是传入的环境,textinputformat.record.delimiter是文件的换行符,默认是’\n’,如果要改变换成,这里是可以改变的。如果要改变换行符,请参考这里 : 链接
于是,上面代码的意思是,传入的context如果不是换行符,就把Bytes用utf_8编码,传入LineRecordReader,否则传去null。
传入的recordDelimiterBytes,在LineRecordReader中会被怎么操作?
首先,我们先看一下,这个LineRecordReader类的共有方法:
public class LineRecordReader extends RecordReader<LongWritable, Text> {
private byte[] recordDelimiterBytes;
public boolean nextKeyValue() throws IOException {
}
nextKeyValue来获得下一个位置的信息,可以看到,似乎key,value键值对,在这里时,已经存在了。调查发现,LineRecordReader是有createkey createvalue方法的,这个方法是从抽象类RecordReader继承,并没有重写。
因此,key_value的产生,应该是在LineRecordReader初始化时,调用抽象类的方法,实现的。顺着这个思路,我们找了下类的初始化方法:
this.start = split.getStart();
this.end = this.start + split.getLength();
而在抽象类RecordReader,key_value恰恰是通过这两个参数赋值的:
this.key.set(this.pos) // key通过pos参数传入数据
this.pos = this.start // pos通过start传入参数
这里this.start
是通过getstart方法初始化的,这个方法得到的是一些内存地址。
this.start = split.getStart()
public long getStart() {
return this.start;
}
this.start = in.readLong(); // 读入地址,长整型,2^64位,就是内存地址。
至此,我们可以看出来,到这个方法时,所得到的key和value 的value是以分隔符分开的字符串,而key是这个字符串的起始位置的字符。