Hadoop的CombineFileInputFormat合并小文件（附代码）

最新推荐文章于 2020-11-26 20:58:48 发布

子非鱼的博客

最新推荐文章于 2020-11-26 20:58:48 发布

阅读量532

点赞数

分类专栏：大数据文章标签： hadoop CombineFileInputFormat Hadoop小文件处理大数据 Hdfs

本文链接：https://blog.csdn.net/qq_41813207/article/details/91387848

版权

本文通过一个简单的demo展示了如何使用Hadoop的CombineFileInputFormat来合并处理大量小文件，从而提高大数据处理的效率。在不同分片大小设置下，实验结果表明了CombineFileInputFormat在解决HDFS小文件问题上的效果。

摘要由CSDN通过智能技术生成

简单的demo!!!

需求：海量小文件，每一个文件都传递一个map()函数，每个map创建一个映射器，导致效率低下。

代码如下：

package xxx;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.MRJobConfig;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.CombineTextInputFormat;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

import java.io.IOException;


/**
 * ************************************
 * @ClassName: CombineInput
 * @Auther: dangjinh
 * @Description:h