MapReduce开启压缩

asd623444055

于 2022-03-14 17:28:15 发布

阅读量118

点赞数

文章标签： mapreduce hadoop java

本文链接：https://blog.csdn.net/asd623444055/article/details/123483754

版权

本文详细介绍了如何在MapReduce作业中启用数据压缩，以优化Hadoop集群的存储和计算效率。通过使用特定的压缩编码器，可以显著减少数据传输和存储的开销，提升整体性能。同时，我们探讨了不同压缩格式的选择及其对作业性能的影响。

摘要由CSDN通过智能技术生成

public class WordCountDriver {

	public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

		Configuration configuration = new Configuration();

		// 开启map端输出压缩
	configuration.setBoolean("mapreduce.map.output.compress", true);
		// 设置map端输出压缩方式
	configuration.setClass("mapreduce.map.output.compress.codec", BZip2Codec.class, CompressionCodec.class);

		Job job = Job.getInstance(configuration);

		job.setJarByClass(WordCountDriver.class);

		job.setMapperClass(WordCountMapper.class);
		job.setReducerClass(WordCountReducer.class);

		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(IntWritable.class);

		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(IntWritable.class);

		FileInputFormat.setInputPaths(job, new Path(args[0]));
		FileOutputFormat.setOutputPath(job, new Path(args[1]));

		boolean result = job.waitForCompletion(true);

		System.exit(re