如何自定义InputFormat合并小文件

最新推荐文章于 2020-12-29 14:57:39 发布

我真的不想学啦

最新推荐文章于 2020-12-29 14:57:39 发布

阅读量189

点赞数 3

本文链接：https://blog.csdn.net/okakio/article/details/103129485

版权

需求

无论hdfs还是mapreduce，对于小文件都有损效率，实践中，又难免面临处理大量小文件的场景，此时，就需要有相应解决方案

分析

小文件的优化无非以下几种方式：
1、在数据采集的时候，就将小文件或小批数据合成大文件再上传HDFS
2、在业务处理之前，在HDFS上使用mapreduce程序对小文件进行合并
3、在mapreduce处理时，可采用combineInputFormat提高效率

实现及代码

自定义InputFromat

package inputformat;

import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.BytesWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.JobContext;
import org.apache.hadoop.mapreduce.RecordReader;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import java.io.IOException;


public class Custom_FileInputFormat extends FileInputFormat<NullWritable, BytesWritable> {
   


    /**
     * 返回文件不可切割,保证一个文件的完整性
     * @param context
     * @param filename
     * @return
     */
    @Override
    protected boolean isSplitable(JobContext context, Path filename) {
   
        return false;
    }

    @Override
    public RecordReader<NullWritable, BytesWritable> createRecordReader(InputSplit inputSplit, TaskAttemptContext taskAttemptContext) throws IOException, InterruptedException {
   
        Custom_RecordReader custom_recordReader = new Custom_RecordReader();
        custom_recordReader.initialize(inputSplit, taskAttemptContext);

        return custom_recordReader;
    }
}

自定义RecordReader

package inputformat;

import org.apache.commons.io.IOUtils;
import org.apache.hadoop.conf.Configuration

最低0.47元/天解锁文章

我真的不想学啦

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
如何自定义InputFormat合并小文件

需求无论hdfs还是mapreduce，对于小文件都有损效率，实践中，又难免面临处理大量小文件的场景，此时，就需要有相应解决方案分析小文件的优化无非以下几种方式：1、在数据采集的时候，就将小文件或小批数据合成大文件再上传HDFS2、在业务处理之前，在HDFS上使用mapreduce程序对小文件进行合并3、在mapreduce处理时，可采用combineInputFormat提高效率实...
复制链接

扫一扫

专栏目录