LineRecordReader的实现方式

最新推荐文章于 2022-09-23 15:33:33 发布

qq_281617953

最新推荐文章于 2022-09-23 15:33:33 发布

阅读量1k

点赞数 1

分类专栏： hadoop 文章标签： LineRecorderReader key value

本文链接：https://blog.csdn.net/tortelee/article/details/82254330

版权

hadoop 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

LineRecordReader被createRecordReader调用，创建了一个新的实例，请看下面代码：

public RecordReader<LongWritable, Text> createRecordReader(InputSplit split, TaskAttemptContext context) {
        String delimiter = context.getConfiguration().get("textinputformat.record.delimiter");
        byte[] recordDelimiterBytes = null;
        if (null != delimiter) {
            recordDelimiterBytes = delimiter.getBytes(Charsets.UTF_8);
        }
        return new LineRecordReader(recordDelimiterBytes);
    }

这里，输入的参数是recordDelimiterBytes，一串字符串，这些字符串是从本地读，且用UTF_8编码方式的。delimiter是定界符，context是传入的环境，textinputformat.record.delimiter是文件的换行符，默认是’\n’，如果要改变换成，这里是可以改变的。如果要改变换行符，请参考这里 : 链接
于是，上面代码的意思是，传入的context如果不是换行符，就把Bytes用utf_8编码，传入LineRecordReader，否则传去null。

传入的recordDelimiterBytes，在LineRecordReader中会被怎么操作？

首先，我们先看一下，这个LineRecordReader类的共有方法：

public class LineRecordReader extends RecordReader<LongWritable, Text> {
    private byte[] recordDelimiterBytes;

   public boolean nextKeyValue() throws IOException {
    }

nextKeyValue来获得下一个位置的信息，可以看到，似乎key，value键值对，在这里时，已经存在了。调查发现，LineRecordReader是有createkey createvalue方法的，这个方法是从抽象类RecordReader继承，并没有重写。
因此，key_value的产生，应该是在LineRecordReader初始化时，调用抽象类的方法，实现的。顺着这个思路，我们找了下类的初始化方法：

this.start = split.getStart();
this.end = this.start + split.getLength();

而在抽象类RecordReader，key_value恰恰是通过这两个参数赋值的:

this.key.set(this.pos) // key通过pos参数传入数据
this.pos = this.start // pos通过start传入参数

这里this.start是通过getstart方法初始化的，这个方法得到的是一些内存地址。

this.start = split.getStart()
 public long getStart() {
        return this.start;
    }
this.start = in.readLong(); // 读入地址，长整型，2^64位，就是内存地址。

至此，我们可以看出来，到这个方法时，所得到的key和value 的value是以分隔符分开的字符串，而key是这个字符串的起始位置的字符。

qq_281617953

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录