LineRecordReader的实现方式

LineRecordReader被createRecordReader调用,创建了一个新的实例,请看下面代码:

public RecordReader<LongWritable, Text> createRecordReader(InputSplit split, TaskAttemptContext context) {
        String delimiter = context.getConfiguration().get("textinputformat.record.delimiter");
        byte[] recordDelimiterBytes = null;
        if (null != delimiter) {
            recordDelimiterBytes = delimiter.getBytes(Charsets.UTF_8);
        }
        return new LineRecordReader(recordDelimiterBytes);
    }

这里,输入的参数是recordDelimiterBytes,一串字符串,这些字符串是从本地读,且用UTF_8编码方式的。delimiter是定界符,context是传入的环境,textinputformat.record.delimiter是文件的换行符,默认是’\n’,如果要改变换成,这里是可以改变的。如果要改变换行符,请参考这里 : 链接
于是,上面代码的意思是,传入的context如果不是换行符,就把Bytes用utf_8编码,传入LineRecordReader,否则传去null。

传入的recordDelimiterBytes,在LineRecordReader中会被怎么操作?

首先,我们先看一下,这个LineRecordReader类的共有方法:

public class LineRecordReader extends RecordReader<LongWritable, Text> {
    private byte[] recordDelimiterBytes;

   public boolean nextKeyValue() throws IOException {
    }

nextKeyValue来获得下一个位置的信息,可以看到,似乎key,value键值对,在这里时,已经存在了。调查发现,LineRecordReader是有createkey createvalue方法的,这个方法是从抽象类RecordReader继承,并没有重写。
因此,key_value的产生,应该是在LineRecordReader初始化时,调用抽象类的方法,实现的。顺着这个思路,我们找了下类的初始化方法:

this.start = split.getStart();
this.end = this.start + split.getLength();

而在抽象类RecordReader,key_value恰恰是通过这两个参数赋值的:

this.key.set(this.pos) // key通过pos参数传入数据
this.pos = this.start // pos通过start传入参数

这里this.start是通过getstart方法初始化的,这个方法得到的是一些内存地址。

this.start = split.getStart()
 public long getStart() {
        return this.start;
    }
this.start = in.readLong(); // 读入地址,长整型,2^64位,就是内存地址。

至此,我们可以看出来,到这个方法时,所得到的key和value 的value是以分隔符分开的字符串,而key是这个字符串的起始位置的字符。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值