MapReduce当中自定义输出：多文件输出MultipleOutputs

最新推荐文章于 2023-07-14 23:38:16 发布

土地公公爷

最新推荐文章于 2023-07-14 23:38:16 发布

阅读量632

点赞数

原文链接：https://blog.csdn.net/mark_to_win/article/details/90377623

版权

Hadoop与MapReduce 专栏收录该内容

33 篇文章 0 订阅

订阅专栏

自定义输出：多文件输出MultipleOutputs

对于刚才的单独订单topN的问题，如果需要把单独的订单id的记录放在自己的一个文件中，并以订单id命名。怎么办？multipleOutputs可以帮我们解决这个问题。注意：和我们本章开始讲的多文件输出不一样的是，这里的多文件输出还可以跟程序的业务逻辑绑定在一起，比如文件的名字和订单有关系。

multipleOutputs的用法可以见底下的程序。
package com;
import java.io.File;
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.DoubleWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.MultipleOutputs;
public class MultipleOutputsTestMark_to_win {

    public static class TokenizerMapper extends Mapper<Object, Text, Text, DoubleWritable> {
        String name;

        protected void setup(Context context) throws IOException, InterruptedException {
            // 从全局配置获取配置参数
            Configuration conf = context.getConfiguration();
            name = conf.get("name"); // 这样就拿到了
        }

        /*
o1abc,p2,250.0
o2kkk,p3,500.0
o2kkk,p4,100.0
o2kkk,p5,700.0
o3mmm,p1,150.0
o1abc,p1,200.0
        */
        public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
            System.out.println("name is " + name + "key is " + key.toString() + " value is " + value.toString());
            String line = value.toString();
            String[] fields = line.split(",");
            String orderId = fields[0];

更多请见：http://www.mark-to-win.com/tutorial/mydb_MapReduce_CustomizedMultiFile.html

土地公公爷

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MapReduce当中自定义输出：多文件输出MultipleOutputs

自定义输出：多文件输出MultipleOutputs对于刚才的单独订单topN的问题，如果需要把单独的订单id的记录放在自己的一个文件中，并以订单id命名。怎么办？multipleOutputs可以帮我们解决这个问题。注意：和我们本章开始讲的多文件输出不一样的是，这里的多文件输出还可以跟程序的业务逻辑绑定在一起，比如文件的名字和订单有关系。multipleOutputs的用法可以见底下的...
复制链接

扫一扫

专栏目录