Hadoop学习笔记———《MultipleOutputs———将结果输出到指定的多个文件或文件夹》

最新推荐文章于 2019-05-13 22:15:56 发布

李承锦MJ

最新推荐文章于 2019-05-13 22:15:56 发布

阅读量2.3k

点赞数

分类专栏： hadoop 文章标签： hadoop

本文链接：https://blog.csdn.net/lcj369387335/article/details/49077045

版权

hadoop 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

在MapReduce中使用MultipleOutputs将结果输出到指定的多个文件或文件夹

使用步骤主要有三步：

1、在reduce或map类中创建MultipleOutputs对象，将结果输出；

class TestReducer extends Reducer<Text, Text, Text, Text>{  
  
    //将结果输出到多个文件或多个文件夹  
    private MultipleOutputs mos;  

    protected void setup(Context context) throws IOException,InterruptedException {  
        mos = new MultipleOutputs<>(context);  // 初始化mos
     }  
          
      
    protected void cleanup(Context context) throws IOException,InterruptedException {  
        mos.close();  //关闭对象  
    }  
}

2、在map或reduce方法中使用MultipleOutputs对象输出数据，代替context.write();

protected void reduce(Text key, Iterable<Text> values, Context context)  
            throws IOException, InterruptedException {  
        .... // 计算key和value
        //使用MultipleOutputs对象输出数据  
        if(key.toString().equals("file1")){  
            mos.write("file1", key, value);  
        }else if(key.toString().equals("file2")){  
            mos.write("file2", key, value);    
        }
}

3、在创建job时，定义附加的输出文件()，这里的文件名称与第二步设置的文件名相同;

要注意的是hadoop是不承认未经注册namedOutput的，必须先在主函数中注册，然后才能写入，否则运行时会报not defined错误；所以要在主函数中用MultipleOutputs.addNamedOutput将对应的namedOutput文件注册一下。

//定义附加的输出文件  
 MultipleOutputs.addNamedOutput(job,"file1",TextOutputFormat.class,Text.class,Text.class);  
 MultipleOutputs.addNamedOutput(job,"file2",TextOutputFormat.class,Text.class,Text.class);

李承锦MJ

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
Hadoop学习笔记———《MultipleOutputs———将结果输出到指定的多个文件或文件夹》

在MapReduce中使用MultipleOutputs将结果输出到多个文件或文件夹使用步骤主要有三步：1、在reduce或map类中创建MultipleOutputs对象，将结果输出；class TestReducer extends Reducer{ //将结果输出到多个文件或多个文件夹 private MultipleOutputs mo
复制链接

扫一扫