MapReduce的自定义InputFormat

最新推荐文章于 2020-12-01 16:43:25 发布

Rich D

最新推荐文章于 2020-12-01 16:43:25 发布

阅读量131

点赞数 2

文章标签： mapreduce

本文链接：https://blog.csdn.net/v3424/article/details/109682474

版权

源码如下：
InputFormat类

import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.RecordReader;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import java.io.IOException;

public class MyInputFormat extends FileInputFormat {
    @Override
    public RecordReader createRecordReader(InputSplit inputSplit, TaskAttemptContext context) throws IOException, InterruptedException {
        MyRR myRR = new MyRR();
        myRR.initialize(inputSplit,context);
        return myRR;
    }
}

RecordReader类

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.BytesWritable;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.RecordReader;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;

import java.io.IOException;

public class MyRR extends RecordReader {
    private FileSplit split;
    private Configuration conf;
    private BytesWritable bytesWritable = new BytesWritable();
    private boolean next=false;
    @Override
    public void initialize(InputSplit inputSplit, TaskAttemptContext taskAttemptContext) throws IOException, InterruptedException {
        split = (FileSplit) inputSplit;
        conf = new Configuration();
    }
    @Override
    public boolean nextKeyValue() throws IOException, InterruptedException {
        if (!next){
            Path path = split.getPath();
            FileSystem fileSystem = FileSystem.get(conf);
            FSDataInputStream open = fileSystem.open(path);
            byte[] bytes = new byte[(int) split.getLength()];
            IOUtils.readFully(open,bytes,0,bytes.length);
            bytesWritable.set(bytes,0,bytes.length);
            open.close();
            fileSystem.close();
            next=true;
            return true;
        }
        return false;
    }
    @Override
    public Object getCurrentKey() throws IOException, InterruptedException {
        return NullWritable.get();
    }
    @Override
    public Object getCurrentValue() throws IOException, InterruptedException {
        return bytesWritable;
    }
    @Override
    public float getProgress() throws IOException, InterruptedException {
        return 0;
    }
    @Override
    public void close() throws IOException {}
}

map类

import org.apache.hadoop.io.BytesWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;

import java.io.IOException;

public class MyMap extends Mapper<NullWritable, BytesWritable,Text,BytesWritable> {
    @Override
    protected void map(NullWritable key, BytesWritable value, Context context) throws IOException, InterruptedException {
        FileSplit split = (FileSplit) context.getInputSplit();
        String filename = split.getPath().getName();
        context.write(new Text(filename),value);
    }
}

驱动类

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.BytesWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.output.SequenceFileOutputFormat;
public class MyDriver {
    public static void main(String[] args) throws Exception {
        Configuration conf= new Configuration();
        Job job = Job.getInstance(conf, "MyInputFormat");
        job.setJarByClass(MyDriver.class);
        job.setMapperClass(MyMap.class);
        job.setInputFormatClass(MyInputFormat.class);
        MyInputFormat.addInputPath(job,new Path(args[0]));
    	job.setOutputFormatClass(SequenceFileOutputFormat.class);
        SequenceFileOutputFormat.setOutputPath(job,new Path(args[1]));
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(BytesWritable.class);
        System.exit(job.waitForCompletion(true)?0:1);
    }
}

Rich D

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MapReduce的自定义InputFormat

源码如下：InputFormat类import org.apache.hadoop.mapreduce.InputSplit;import org.apache.hadoop.mapreduce.RecordReader;import org.apache.hadoop.mapreduce.TaskAttemptContext;import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;import java.io.IOExcept
复制链接

扫一扫