实现按行而不是按文件大小来切分的文件的方法

最新推荐文章于 2022-10-24 17:52:30 发布

ailands

最新推荐文章于 2022-10-24 17:52:30 发布

阅读量812

点赞数

分类专栏： hadoop 文章标签： path mapreduce string input 框架 class

hadoop 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

NLineInputFormat继承自FileInputFormat，它实现按行而不是按文件大小来切分的文件的方法。

重写了FileInputFormat中的getSplits()和createRecordReader()方法，因为NLineInputFormat是在旧的mapreduce框架下写的，这里写了新框架下的NLineIputFormat，代码如下：

package com.yuankang.hadoop;

import java.io.IOException;

import java.util.ArrayList;

import java.util.List;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FSDataInputStream;

import org.apache.hadoop.fs.FileStatus;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.input.FileSplit;

import org.apache.hadoop.mapreduce.InputSplit;

import org.apache.hadoop.mapreduce.JobContext;

import org.apache.hadoop.mapreduce.lib.input.LineRecordReader;

import org.apache.hadoop.mapreduce.RecordReader;

import org.apache.hadoop.util.LineReader;

import org.apache.hadoop.mapreduce.TaskAttemptContext;

public class NLineInputFormat extends FileInputFormat<LongWritable, Text>{

private int N = 1;

@Override

public RecordReader<LongWritable, Text>

createRecordReader(InputSplit split,

TaskAttemptContext context) {

return new LineRecordReader();

}

/**

* Logically splits the set of input files for the job, splits N lines

* of the input as one split.

*

* @see org.apache.hadoop.mapred.FileInputFormat#getSplits(JobConf, int)

*/

public List<InputSplit> getSplits(JobContext job

) throws IOException{

List<InputSplit> splits = new ArrayList<InputSplit>();

for (FileStatus file : listStatus(job)) {

Path path = file.getPath();

FileSystem fs = path.getFileSystem(job.getConfiguration());

LineReader lr = null;

try {

FSDataInputStream in = fs.open(path);

Configuration conf = job.getConfiguration();

lr = new LineReader(in, conf);

N = conf.getInt("mapred.line.input.format.linespermap", 1);

Text line = new Text();

int numLines = 0;

long begin = 0;

long length = 0;

int num = -1;

while ((num = lr.readLine(line)) > 0) {

numLines++;

length += num;

if (numLines == N) {

splits.add(new FileSplit(path, begin, length, new String[]{}));

begin += length;

length = 0;

numLines = 0;

}

}

if (numLines != 0) {

splits.add(new FileSplit(path, begin, length, new String[]{}));

}

} finally {

if (lr != null) {

lr.close();

}

}

}

System.out.println("Total # of splits: " + splits.size());

return splits;

}

}

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
实现按行而不是按文件大小来切分的文件的方法

NLineInputFormat继承自FileInputFormat，它实现按行而不是按文件大小来切分的文件的方法。重写了FileInputFormat中的getSplits()和createRecordReader()方法，因为NLineInputFormat是在旧的mapreduce框架下写的，这里写了新框架下的NLineIputFormat，代码如下：
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。