mapReduce的组合

最新推荐文章于 2023-10-30 22:27:32 发布

daladalabao

最新推荐文章于 2023-10-30 22:27:32 发布

阅读量172

点赞数 1

分类专栏： mapReduce 文章标签： mapreduce 大数据

本文链接：https://blog.csdn.net/qq_45450889/article/details/111564066

版权

mapReduce 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

$\blacktriangleright$ 组合(合并)

意义：对每一个MapTask输出进行局部汇总，减少网络传输量
使用的前提是不影响最终的业务逻辑，而且Combiner输出的kv要和Reducer输入的kv对应

编写一个类要继承Combiner

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class WordCountCombiner extends Reducer<Text, IntWritable,Text,IntWritable> {

    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        int sum = 0;
        for(IntWritable v : values){
            sum+=v.get();
        }
        context.write(key,new IntWritable(sum));
    }
}

编写一个类继承Driver类

import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class WordCountOrderDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        Job job = Job.getInstance();

        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);

        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        job.setMapperClass(WordCountOrderMapper.class);
        job.setReducerClass(WordCountOrderReduce.class);

        FileInputFormat.setInputPaths(job,new Path("F:\\test\\hello.txt"));
        FileOutputFormat.setOutputPath(job,new Path("F:\\test\\helloOutput1"));

        //当和reduce类相同时可以替代
        job.setCombinerClass(WordCountCombiner.class);
        job.setPartitionerClass(WordCountOrderPartition.class);
        job.setNumReduceTasks(2);
        job.waitForCompletion(true);
    }
}

daladalabao

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
mapReduce的组合

▶\blacktriangleright▶ 组合(合并)意义：对每一个MapTask输出进行局部汇总，减少网络传输量使用的前提是不影响最终的业务逻辑，而且Combiner输出的kv要和Reducer输入的kv对应编写一个类要继承Combinerimport org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Reducer;im
复制链接

扫一扫