MapReduce自定义RecordReader

最新推荐文章于 2024-03-21 16:20:33 发布

lzm1340458776

最新推荐文章于 2024-03-21 16:20:33 发布

阅读量6.6k

点赞数 1

分类专栏： Hadoop Hadoop案例实战文章标签： Hadoop自定义RecordReade MapReduce自定义RecordRe 自定义RecordReader RecordReader

本文链接：https://blog.csdn.net/lzm1340458776/article/details/43054037

版权

一：背景RecordReader表示以怎样的方式从分片中读取一条记录，每读取一条记录都会调用RecordReader类，系统默认的RecordReader是LineRecordReader，它是TextInputFormat对应的RecordReader；而SequenceFileInputFormat对应的RecordReader是SequenceFileRecordReader。LineR

摘要由CSDN通过智能技术生成

一：背景

RecordReader表示以怎样的方式从分片中读取一条记录，每读取一条记录都会调用RecordReader类，系统默认的RecordReader是LineRecordReader，它是TextInputFormat对应的RecordReader；而SequenceFileInputFormat对应的RecordReader是SequenceFileRecordReader。LineRecordReader是每行的偏移量作为读入map的key，每行的内容作为读入map的value。很多时候hadoop内置的RecordReader并不能满足我们的需求，比如我们在读取记录的时候，希望Map读入的Key值不是偏移量而是行号或者是文件名，这时候就需要我们自定义RecordReader。

二：技术实现

(1)：继承抽象类RecordReader，实现RecordReader的一个实例。

(2)：实现自定义InputFormat类，重写InputFormat中的CreateRecordReader()方法，返回值是自定义的RecordReader实例。

(3)：配置job.setInputFormatClass()为自定义的InputFormat实例。

#需求：统计data文件中奇数行和偶数行的和：

实现代码如下：

MyRecordReader.java：

public class MyRecordReader extends RecordReader<LongWritable, Text>{

	//起始位置(相对整个分片而言)
	private long start;
	//结束位置(相对整个分片而言)
	private long end;
	//当前位置
	private long pos;
	//文件输入流
	private FSDataInpu

最低0.47元/天解锁文章

lzm1340458776

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
MapReduce自定义RecordReader

一：背景RecordReader表示以怎样的方式从分片中读取一条记录，每读取一条记录都会调用RecordReader类，系统默认的RecordReader是LineRecordReader，它是TextInputFormat对应的RecordReader；而SequenceFileInputFormat对应的RecordReader是SequenceFileRecordReader。LineR
复制链接

扫一扫