MapReduce案例之自定义OutputFormat实现输出结果存放在不同文件夹下

最新推荐文章于 2023-06-05 14:25:26 发布

QYHuiiQ

最新推荐文章于 2023-06-05 14:25:26 发布

阅读量630

点赞数 1

CC 4.0 BY-SA版权

分类专栏：大数据之Hadoop 文章标签： mapreduce hadoop 大数据

本文链接：https://blog.csdn.net/QYHuiiQ/article/details/125248846

大数据之Hadoop 专栏收录该内容

58 篇文章 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了如何使用MapReduce自定义OutputFormat将数据按性别分到不同文件夹。通过处理含有性别信息的数据，实现了男生和女生数据分别存储在独立的文件夹中，详细步骤包括数据准备、项目创建、自定义OutputFormat、RecordWriter、Mapper、主类，以及最后的运行验证。

该案例中要实现的是根据数据文件中的学生性别，将男生和女生分别放入不同的文件夹中，所以需要我们自定义一个OutputFormat类去实现我们的逻辑。为什么不用分区的思想直接对性别不同的数据进行区分呢，这是因为分区只是把不同的数据放入不同的分区文件中，而我们要实现的是放入不同的文件夹中。

数据准备

第三列的值表示性别，1表示男生，0表示女生。

将数据源文件上传至HDFS:

[root@hadoop01 test_data]# hdfs dfs -mkdir /test_custom_ouputformat_input
[root@hadoop01 test_data]# hdfs dfs -put test_custom_outputformat.txt /test_custom_ouputformat_input

新建Project：

引入pom依赖

<?xml version="1.0" encoding="UTF-8"?>
<projec

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

QYHuiiQ

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

订阅专栏

MapReduce初级案例

wenyusuran的专栏

06-19

2263

1、数据去重　　 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。 1.1 实例描述　　对数据文件中的数据进行去重。数据文件中的每行都是一个数据。　　样例输入如下所示： 1）file1： 2012-3-

Hadoop之HDFS及MapReduce详解，以及HA集群搭建

weixin_44961626的博客

02-25

438

一、概述 大数据 大数据（big data）是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产 大数据的5V特点（IBM提出）： Volume（大量） Velocity（高速） Variety（多样） Value（低价值密度） Veracity（真实性） Hadoop是什么？ http://hadoop.apache.org Apache Hadoop是一个开源、可靠、可扩展的分布式计算框

参与评论您还未登录，请先登录后发表或查看评论

MapReduce之自定义输出

qq_45769990的博客

11-16

317

1.Drive驱动类 package RecodReader; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.BytesWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.

MapReduce输出数据

凉茶铺的博客

10-07

1032

介绍了MapReduce输出数据OutputFormat类，以及如何自定义输出数据类型

实用工具 | 语音文本对齐MFA的安装及使用

weixin_44649780的博客

06-05

7092

是一个用于将音频和文本进行对齐的工具。它可以用于语音识别、语音合成和发音研究等领域。MFA支持多种语言和语音，用户可以根据需要自定义训练模型。本博客介绍如何使用MFA对音频和文本进行对齐，其中使用的是MFA的最新版本（版本v2.2.12）。

【MapReduce】Mapreduce基础知识整理 (七) 自定义输出

人生所向，皆是美好

12-25

306

自定义输出默认输出： FileOutputFormat TextOutputFormat RecordWriter LineRecordWriter 自定义输出：创建一个类继承FileOutputFormat 重写getRecordWriter 创建一个文件真正的写入器，继承RecordRecordWriter 重写write() close() job中指定自定义的输...

实现MapReduce多文件自定义输出

tbdp6411的专栏

06-05

897

http://pan.baidu.com/s/1kT0usSZ

4 Hadoop-Mapreduce

PhoenixLuo·的博客

05-03

961

目录 4.4 MapReduce 4.4.1 MapReduce 介绍 MapReduce 设计构思 4.4.2 MapReduce 编程规范 4.4.3 WordCount(经典案例） Step 1. 数据格式准备 Step 2. Mapper Step 3. Reducer Step 4. 定义主类, 描述 Job 并提交 Job 4.4.4 MapReduce 运行模式集群运行模式本地运行模式（一般做测试用） 4.4.5 MapReduce 分区 Step 1. 定义

深入理解MapReduce及其JavaAPI实现

# 深入理解 MapReduce 及其 Java API 实现 ## 一、MapReduce 基础概念 ### 1.1 键值对输出 Map 方法的输出（即 Reduce 方法的输入）是一系列键（K2）和关联的值列表（V2）。每个 Mapper 输出单个键值对，这些键值对...

0070-mapreduce自定义输出类

登峰小蚁

03-14

2548

文章目录1. 需求背景2. 场景3. 具体实现3.1 自定义输出类3.2 Mapper类3.3 Reducer类3.4 job类-标准写法4. 总结 1. 需求背景 mapper-reducer程序只能输入键值对，如果需要输出多个字段信息，必须对键或值进行自定义封装。 2. 场景 // 手机号码上行流量下行流量其他字段 13576119010 11 22 aa1 bb1 1367611901...

MapReduce练习 自定义输出类型

做一个好人

08-23

647

练习题：检索出每个二级域名的总流量（总上行流量+总下行流量）数据： 18878724052 http://www.edu360.cn 10047 11344 15522957721 http://weibo.com/?category=1760 18751 5605 18133396282 https://image.baidu.com 12276 9411 15565139582 htt...

MapReduce输出结果保存到MySQL

阿坨的博客

08-31

1383

文章目录代码编写思路代码实现Map类输出数据表的javaBean类Reduce类Job类jar包运行前准备运行jar包代码编写思路以词频统计案例为例，说明如何把MapReduce的输出结果保存到MySQL中。Map任务基本不变，主要把实现聚焦在Reduce的输出上。Reduce任务的输出的key为相应的输出数据表的javaBean类实现，该类需要实现org.apache.hadoop.io.Writable的Writable接口和org.apache.hadoop.mapreduce.lib.db的DB

spark-hdfs-自定义OutputFormat

DCHAO的博客

05-27

1203

SRC 主要就是2个实现类TextOutputFormat和SequenceOutputFormat spark的rdd的saveAsTextFile()方法底层默认调的其实也是TextOutputFormat，这有2个问题： 1是无法指定文件名（这个其实不是问题，因为逻辑上只需要指定目录名即可，分布式的情况下一个文件肯定要分成多个部分，给每个部分指定名称无意义） 2是无法满足一些个性化需求所以需要自定义 OutputFormat的作用就是把内存中一个个的kv变成文件 usage 1. 继承FileOut

MapReduce的Partition和OutputFormat

qq_51260764的博客

09-25

581

Records和OutputFormat的一些问题，两者的基本作用，和两者共用的一些问题

对于Mapreduce作业的输出

qq_36055407的博客

07-21

400

使用方法： 1.在作业配置过程中将mapreduce.output.fileoutput.compress属性设置为true,将mapre-duce.output.fileoutputformat.copress.codec属性设置为打算使用的压缩codec的类名。另一种方案为在FileOutputFormat中使用: FileOutputFormat.setCompressOutput(...

MapReduce的join操作多个Map多个文件

chuxingbubian的博客

11-26

1664

1、需求与实现思路（1）需求有2个数据文件：订单数据、商品信息。订单数据表order 商品信息表product 需要用MapReduce程序来实现下面这个SQL查询运算： select o.id order_id, o.date, o.amount, p.id p_id, p.pname, p.c ategory_id, p.price from t_order o join t_pro...

MapReduce系列之MapReduce的输出

twj0823的博客

10-14

3286

针对前面介绍的输入格式，MapReduce也有相应的输出格式。默认情况下只有一个 Reduce，输出只有一个文件，默认文件名为 part-r-00000，输出文件的个数与 Reduce 的个数一致。如果有两个Reduce，输出结果就有两个文件，第一个为part-r-00000，第二个为part-r-00001，依次类推 OutputFormat 接口 OutputFormat主要...

Mapreduce自定义输入输出组件的认识

zhigang1007的博客

10-25

913

在进行Mapreduce的计算中，经常有需要按照自己的要求输入输出各种格式的需求。因此在这里，我简单将我了解的关于Mapreduce中自定义输入输出格式的认识分享给大家。首先，我们从输出格式开始说，这个比较简单。Mapreduce的输出格式的主要切入点是最后的context.write（key，value）方法。需要定义自己的输出格式，就必须改下这个write方法，让他按照我们自己的要求输出。

问题解决：MapReduce输出结果乱码（Eclipse）

邵奈一的博客

07-28

1541

所以，最简单的办法其实还是将需要统计文件的编码格式改成UTF-8，这样我们就不需要改代码了，否则，你需要指定输入文件的编码格式，不然就会像开头的统计结果一样，只有三行，而且是乱码的。...