【hadoop】reducer输出多个目录

最新推荐文章于 2019-05-23 21:14:30 发布

「已注销」

最新推荐文章于 2019-05-23 21:14:30 发布

阅读量2.6k

点赞数

分类专栏： Hadoop

本文链接：https://blog.csdn.net/joe_007/article/details/8968289

版权

本文介绍如何在Hadoop MapReduce中通过自定义`MultipleTextOutputFormat`子类，使得Reducer能够输出到多个不同的目录下。具体实现包括自定义的`MultipleTextOutputFormat`类以及在主类中配置和运行作业的过程。运行结果展示输出目录包含多个以特定格式命名的文件。

摘要由CSDN通过智能技术生成

hadoop的reducer输出多个文件

关键字: hadoop , mapreduce

有时候我们想到这样的功能: reducer能根据key(或value)值来输出多个文件，同一key(或value)处于同一个文件中。现在hadoop的0.17.x版本可以重写MultipleOutputFormat的generateFileNameForKeyValue就可以实现此功能。

比如：

     Java代码  
     
   
 package org.apache.hadoop.mapred.lib;   
   
 import java.io.IOException;   
   
 import org.apache.hadoop.fs.FileSystem;   
 import org.apache.hadoop.io.Writable;   
 import org.apache.hadoop.io.WritableComparable;   
 import org.apache.hadoop.mapred.JobConf;   
 import org.apache.hadoop.mapred.RecordWriter;   
 import org.apache.hadoop.mapred.TextOutputFormat;   
 import org.apache.hadoop.util.Progressable;   
   
 public class MultipleTextOutputFormat<K extends WritableComparable, V extends Writable>   
     extends MultipleOutputFormat<K, V> {   
   
   private TextOutputFormat<K, V> theTextOutputFormat = null;   
   
   @Override  
   protected RecordWriter<K, V> getBaseRecordWriter(FileSystem fs, JobConf job,   
       String name, Progressable arg3) throws IOException {   
     if (theTextOutputFormat ==