Hadoop案例：自定义OutputFormat数据输出

最新推荐文章于 2024-05-16 17:17:19 发布

小M姐姐呀~

最新推荐文章于 2024-05-16 17:17:19 发布

阅读量2k

点赞数 1

分类专栏：大数据文章标签： hadoop mapreduce big data 大数据 java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/baidu_41833099/article/details/121707175

版权

大数据专栏收录该内容

31 篇文章 4 订阅

订阅专栏

1.OutputFormat概述

目录

1.OutputFormat概述

2.自定义OutputFormat

2.1应用场景

2.2 自定义OutputFormat步骤

3.自定义OutputFormat案例

3.2代码实现

（1）编写LogMapper类

（2）编写LogReducer类

（3）编写自定义LogOutputFormat继承OutputFormat

(4) 编写LogRecordWriter类

（5）编写Driver类

OutputFormat是MapReduce输出的基类，所有实现了MapReduces输出都实现了OutputFormat接口。以下为OutputFormat的相关实现类。默认输出格式TextOutputFormat。

2.自定义OutputFormat

2.1应用场景

例如：输出数据到到MySql/Hbase等存储框架中

2.2 自定义OutputFormat步骤

首先自定义一个类继承FileOutputFormat

然后RecordWriter，具体改写输出数据的方法write()

3.自定义OutputFormat案例

3.1需求

3.2代码实现

（1）编写LogMapper类

package com.yangmin.mapreduce.outputFormat;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class LogMapper extends Mapper<LongWritable, Text,Text, NullWritable> {
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        //不做任何处理,直接写出一行 log 数据
        context.write(value, NullWritable.get());
    }
}

（2）编写LogReducer类

package com.yangmin.mapreduce.outputFormat;

import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class LogReducer extends Reducer<Text, NullWritable,Text,NullWritable> {
    @Override
    protected void reduce(Text key, Iterable<NullWritable> values, Context context) throws IOException, InterruptedException {
        for (NullWritable value : values) {
            // 防止有相同的数据,迭代写出
           context.write(key, value);
        }
    }
}

（3）编写自定义LogOutputFormat继承OutputFormat

package com.yangmin.mapreduce.outputFormat;

import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.RecordWriter;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class LogOutputFormat extends FileOutputFormat<Text, NullWritable> {
    @Override
    public RecordWriter<Text, NullWritable> getRecordWriter(TaskAttemptContext job) throws IOException, InterruptedException {
        LogRecordWriter logRecordWriter = new LogRecordWriter(job);
        return logRecordWriter;

    }
}

(4) 编写LogRecordWriter类

package com.yangmin.mapreduce.outputFormat;

import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.RecordWriter;
import org.apache.hadoop.mapreduce.TaskAttemptContext;

import java.io.IOException;

public class LogRecordWriter extends RecordWriter<Text, NullWritable> {
    private  FSDataOutputStream atguiguOut;
    private  FSDataOutputStream otherOut;

    public LogRecordWriter(TaskAttemptContext job){
        //创建两条流
        try {
            FileSystem fs = FileSystem.get(job.getConfiguration());

            atguiguOut = fs.create(new Path("C:\\ZProject\\bigdata\\output\\output-define-outputformat\\atguigu.log"));
            this.otherOut = fs.create(new Path("C:\\ZProject\\bigdata\\output\\output-define-outputformat\\other.log"));
            FSDataOutputStream otherOut = this.otherOut;
        } catch (IOException e) {
            e.printStackTrace();
        }

    }

    @Override
    public void write(Text key, NullWritable value) throws IOException, InterruptedException {
        String log = key.toString();
        if (log.contains("atguigu")){
            atguiguOut.writeBytes(log+"\n");
        }else {
            otherOut.writeBytes(log+"\n");
        }
    }

    @Override
    public void close(TaskAttemptContext context) throws IOException, InterruptedException {
        IOUtils.closeStream(atguiguOut);
        IOUtils.closeStream(otherOut);

    }
}

（5）编写Driver类

package com.yangmin.mapreduce.outputFormat;

import com.yangmin.mapreduce.wordcount.WordCountDriver;
import com.yangmin.mapreduce.wordcount.WordCountMapper;
import com.yangmin.mapreduce.wordcount.WordCountReducer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class Driver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        // 1. 获取配置信息以及获取job对象
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);

        // 2. 设置jar包路径
        job.setJarByClass(Driver.class);

        //3. 关联mapper和reducer
        job.setMapperClass(LogMapper.class);
        job.setReducerClass(LogReducer.class);

        //4.设置map输出的kv类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(NullWritable.class);

        //5. 设置最终输出的kv类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(NullWritable.class);

        //设置outputformat
        job.setOutputFormatClass(LogOutputFormat.class);

        //6.设置输出路径和输出路径
        FileInputFormat.setInputPaths(job, new Path("C:\\ZProject\\bigdata\\input\\inputoutputformat"));
        FileOutputFormat.setOutputPath(job, new Path("C:\\ZProject\\bigdata\\output\\output-define-outputformat\\111"));

        //7.提交作业
        boolean result = job.waitForCompletion(true);
        System.exit(result ? 0 : 1);
    }
}

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Hadoop案例：自定义OutputFormat数据输出

1.OutputFormat概述目录1.OutputFormat概述2.自定义OutputFormat2.1应用场景2.2 自定义OutputFormat步骤3.自定义OutputFormat案例3.1需求3.2代码实现（1）编写LogMapper类（2）编写LogReducer类（3）编写自定义LogOutputFormat继承OutputFormat (4) 编写LogRecordWriter类（5）编写Driver类OutputFormat...
复制链接

扫一扫

专栏目录

小M姐姐呀~ CSDN认证博客专家 CSDN认证企业博客

码龄6年

56: 原创

29万+: 周排名

139万+: 总排名

12万+: 访问

: 等级

865: 积分

705: 粉丝

133: 获赞

175: 评论

441: 收藏

私信

关注

分类专栏

ssm 1篇
java 7篇
数据库 2篇
linux 1篇
LIBSVM 2篇
大数据 31篇
工具 4篇
爬虫 5篇

最新评论

FormatdataLibsvm.xls的使用
Ehrft_: 您好，已关注，能麻烦帮发下FormatdataLibsvm.xls和iris.text吗，非常感谢！！邮箱3299561681@qq.com
hadoop运行时出现的问题，map0%,ruduce 0% 以及 map 100% reduce 32%
我寄了张卡片: 博主你好我的Hadoop作业显示map 0% reduce 0%, 结束显示map 0% reduce 100% 但是输出路径什么数据都没有我也添加了hostname 还是不行
VMware虚拟机之 NAT模式详解
王健祥: 我nat下有3台机器A B C，都是克隆来的。手动设置了不在范围内的三个IP。三台机器一起启动的话，只有一台能访问外网，而且是动态随机的，一会儿这台能访问，一会儿那台能访问。如果，一台启动完，再启动另一台，大概率都能上网。
在Ubuntu服务器上离线安装Mysql
FSoberCCCC: 在倒数第二个包安装的时候，二次输入密码后就卡在了正在设定mysql-community-server的界面了
利用EXCEL进行数据爬虫
靓仔@星夜: 那就python

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

小M姐姐呀~ 如果对您帮助，请客观打赏点

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。