Mapreduce中自定义OutputFormat

最新推荐文章于 2021-08-29 21:37:28 发布

klionl

最新推荐文章于 2021-08-29 21:37:28 发布

阅读量209

点赞数

分类专栏： hadoop

本文链接：https://blog.csdn.net/klionl/article/details/105772564

版权

本文介绍了MapReduce中如何自定义OutputFormat，包括OutputFormat接口的作用，TextOutputFormat和SequenceFileOutputFormat的使用，并详细说明了自定义OutputFormat的步骤，以满足特定的输出需求，如根据数据内容将结果输出到不同目录。

摘要由CSDN通过智能技术生成

Mapreduce中自定义OutputFormat

OutputFormat接口实现类

OutputFormat是MapReduce输出的基类，所有实现MapReduce输出都实现了OutputFormat接口

文本输出TextOutputFormat

默认的输出格式是TextOutputFormat，它把每条记录写为文本行。它的键和值可以是任意类型，因为TextOutputFormat调用toString0方法把它们转换为字符串。

SequenceFileOutputFormat

将SequenceFileOutputFormat输出作为后续MapReduce任务的输入,这便是-种好的输出格式，因为它的格式紧凑，很容易被压缩。

自定义OutputFormat

为了实现控制最终文件的输出路径和输出格式，可以自定义OutputFormat。比如要在一个MR程序中根据数据的不同，输出两类结果到不同目录。这类灵活的输出需求可以通过自定义OutputFormat来实现。

自定义OutputFormat步骤：

(1) 自定义一个类继承FileOutputFormat
(2) 改写RecordWriter，具体改写输出数据的方法write()

自定义OutputFormat

需求分析
过滤输入的数据，将包含atguigu的网站输出到一个文件，不包含atguigu的网站输出到另一个文件
输入数据
编写Mapper类

package com.atguigu.mr.outputformat;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import java.io.IOException;

public class FileMapper extends Mapper<LongWritable, Text, Text, NullWritable> {
   
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
   
        context.write(value,NullWritable.get());
    }
}

编写Reducer类

package com.atguigu.mr.outputformat;

import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import java.io.IOException;

public class FileReducer extends Reducer<Text, NullWritable,Text,NullWritable> {
   
    Text k = new Text()

最低0.47元/天解锁文章

klionl

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Mapreduce中自定义OutputFormat

Hadoop学习Mapreduce中自定义OutputFormatOutputFormat接口实现类自定义OutputFormatMapreduce中自定义OutputFormatOutputFormat接口实现类OutputFormat是MapReduce输出的基类，所有实现MapReduce输出都实现了OutputFormat接口文本输出TextOutputFormat默认的输出...
复制链接

扫一扫

专栏目录