Hadoop 自定义OutputFormat

最新推荐文章于 2021-12-03 21:32:56 发布

老鼠扛刀满街找猫@

最新推荐文章于 2021-12-03 21:32:56 发布

阅读量279

点赞数

分类专栏： hadhoop

本文链接：https://blog.csdn.net/qq_27242695/article/details/119824391

版权

hadhoop 专栏收录该内容

22 篇文章 1 订阅

订阅专栏

这篇文章介绍了如何在Hadoop MapReduce中自定义OutputFormat，以将日志数据按类别分类并分别输出到HDFS的不同文件。通过实例展示了如何创建LogOutputFormat和LogRecordWriter，以及如何在Job中配置使用这些自定义输出格式。

摘要由CSDN通过智能技术生成

文章目录

Hadoop 自定义OutputFormat

Hadoop 自定义OutputFormat

1 介绍

OutputFormat是MapReduce输出的基类，所有实现MapReduce输出都实现了 OutputFormat接口。

hadoop常见的OutputFormat实现类

2 自定义OutputFormat

2.1 说明

应用场景
例如：输出数据到MySQL/HBase/Elasticsearch/HDFS等存储框架中。
自定义OutputFormat步骤
自定义一个类继承FileOutputFormat。
改写RecordWriter，具体改写输出数据的方法write()。
设置自定义的 outputformat：job.setOutputFormatClass(LogOutputFormat.class);

2.2 案例伪代码

需求：按日志分类，分别输出到HDFS的两个文件
LogRecordWriter 继承RecordWriter

import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.RecordWriter;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import java.io.IOException;
public class LogRecordWriter extends RecordWriter<Text, NullWritable> {
 	private FSDataOutputStream atguiguOut;
 	private FSDataOutputStream otherOut;
 	public LogRecordWriter(TaskAttemptContext job) {
 		try {
 			//获取文件系统对象
 			FileSystem fs = FileSystem.get(job.getConfiguration());
 			//用文件系统对象创建两个输出流对应不同的目录
 			atguiguOut = fs.create(new Path("d:/hadoop/atguigu.log"));
 			otherOut = fs.create(new Path("d:/hadoop/other.log"));
 		} catch (IOException e) {
 		e.printStackTrace();
		 }
	}
	// 输出格式在该方法定义
 	@Override
 	public void write(Text key, NullWritable value) throws IOException, 
		InterruptedException {
 		String log = key.toString();
 		//根据一行的 数据是否包含 atguigu,判断两条输出流输出的内容
 		if (log.contains("atguigu")) {
 			atguiguOut.writeBytes(log + "\n");
		 } else {
 		otherOut.writeBytes(log + "\n");
 		}
 }
 		@Override
 		public void close(TaskAttemptContext context) throws IOException, 
		InterruptedException {
 			//关流
 			IOUtils.closeStream(atguiguOut);
 			IOUtils.closeStream(otherOut);
 	} 
 }

LogOutputFormat 继承FileOutputFormat

import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.RecordWriter;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import java.io.IOException;
public class LogOutputFormat extends FileOutputFormat<Text, NullWritable> {
 		@Override
 		public RecordWriter<Text, NullWritable> getRecordWriter(TaskAttemptContext job) throws IOException, 
		InterruptedException {
 			//创建一个自定义的 RecordWriter 返回
 			LogRecordWriter logRecordWriter = new LogRecordWriter(job);
 			return logRecordWriter;
 		} 
 	}

job 设置自定义输出
伪代码

//设置自定义的 outputformat
 job.setOutputFormatClass(LogOutputFormat.class);
 // 虽 然 我 们 自 定 义 了 outputformat ， 但 是 因 为 我 们 的 outputformat 继承自fileoutputformat
 //而 fileoutputformat 要输出一个_SUCCESS 文件，所以在这还得指定一个输出目录
 FileOutputFormat.setOutputPath(job, new Path("D:\\logoutp