Hadoop3中实现MapReduce自定义OutputFormat

QYHuiiQ

于 2022-07-29 22:22:01 发布

阅读量364

点赞数

分类专栏：大数据之Hadoop 文章标签： mapreduce hadoop 大数据

本文链接：https://blog.csdn.net/QYHuiiQ/article/details/126063673

版权

大数据之Hadoop 专栏收录该内容

58 篇文章 0 订阅 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

由于MapReduce中默认的OutputFormat是TextOutputFormat，按行写入输出文件。但是对于我们实际应用场景中，对于Reduce的输出结果可能想要放到各种各样的输出目的地，可能是想要放到某个指定文件名的文件中，也可能是想写入HBase/Elasticsearch等等数据存储系统中，而hadoop自身提供的几种OutputFormat无法满足我们的需求时，可能就需要我们自定义这样的一个输出类。

在这个案例中我们想要实现的是，对于一个订单文件中的订单数据进行过滤，将订单中的不同类别商品输出到不同的文件中，这里与分区不同的是，分区无法指定写入的输出文件名，而这里我们可以指定水果放在fruit.txt中，冷冻食品放到frozen.txt中，蔬菜放到vegetable.txt中。

准备数据文件

[root@hadoop301 testdata]# pwd
/usr/local/wyh/software/hadoop-3.1.3/testdata
[root@hadoop301 testdata]# cat testorder.txt
apple-1
dumpling-2
orange-1
grape-1
potato-3
tofu-3
grape-1
tomato-3

#注意这里可能会有重复商品，比如：grape-1

商品后面的数字表示类别表示，"1"表示水果，"2"表示冷冻食品，"3"表示蔬菜。

上传至HDFS:

[root@hadoop301 testdata]# hdfs dfs -mkdir /test_order
[root@hadoop301 testdata]# hdfs dfs -put testorder.txt /test_orde

了解本专栏

超级会员免费看

QYHuiiQ

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Hadoop3中实现MapReduce自定义OutputFormat

在这个案例中我们想要实现的是，对于一个订单文件中的订单数据进行过滤，将订单中的不同类别商品输出到不同的文件中，这里与分区不同的是，分区无法指定写入的输出文件名，而这里我们可以指定水果放在fruit.txt中，冷冻食品放到frozen.txt中，蔬菜放到vegetable.txt中。虽然说我们需要自定义OutputFormat去实现输出类，但真正写数据的实现是由RecordWriter完成的，素以我们需要自定义一个类去实现RecordWriter中的方法。这样就简单地实现了自定义OutputFormat。..
复制链接

扫一扫