黑猴子的家：MapReduce WordCount 局部汇总（Combiner）

最新推荐文章于 2024-03-27 20:41:12 发布

原创最新推荐文章于 2024-03-27 20:41:12 发布 · 256 阅读

1 ·

CC 4.0 BY-SA版权

MapReduce 专栏收录该内容

50 篇文章

订阅专栏

本文详细介绍如何在MapReduce作业中使用Combiner来优化WordCount任务，通过局部汇总减少网络传输，提升处理效率。文章提供了两种实现方案，包括创建专用的Combiner类和直接使用Reducer作为Combiner。

统计过程中对每一个maptask的输出进行局部汇总，以减小网络传输量即采用Combiner功能

1、分析

2、方案一

1）增加一个WordcountCombiner类继承Reducer

import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class WordcountCombiner extends Reducer<Text, IntWritable, Text, IntWritable>{

    @Override
    protected void reduce(Text key, Iterable<IntWritable> values,
            Context context) throws IOException, InterruptedException {

        int count = 0;
        for(IntWritable v :values){
            count += v.get();
        }
        
        context.write(key, new IntWritable(count));
    }
}

2）在WordcountDriver驱动类中指定combiner

//指定需要使用combiner，以及用哪个类作为combiner的逻辑
job.setCombinerClass(WordcountCombiner.class);

3、方案二

1）将WordcountReducer作为combiner在WordcountDriver驱动类中指定

//指定需要使用combiner，以及用哪个类作为combiner的逻辑
job.setCombinerClass(WordcountReducer.class);

2）运行程序

4、基于wordcount案例

https://www.jianshu.com/p/c8726f1ccd8f

5、Code -> GitHub

https://github.com/liufengji/hadoop_mapreduce.git

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

黑猴子的家

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Wordcount Combiner性能测试

北邮大数据

04-06

1469

在mapreduce程序的运行过程中，map阶段产生的数据存放在本地磁盘中，reduce阶段节点通过远程访问的形式读取进行下一步计算。如果能够减少map阶段产生的数据量就能够大幅度提升体统性能。 Combiner是减少map阶段产生数据量的重要措施。本文档重点研究了combiner函数对于wordcount程序运行时间的影响。本文档的研究方法是：在运行wordcount程序过程中，针

Hadoop WordCount代码详解及升级Combiner操作

kokopop007的博客

08-07

515

一.是创建Mapper类 import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; import java.io.IOException...

参与评论您还未登录，请先登录后发表或查看评论

MapReduce WordCount Combiner程序

weixin_33974433的博客

03-22

197

MapReduce WordCount Combiner程序注意使用Combiner之后的累加情况是不同的； pom.xml <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation...

MapReduce的combiner (经典实例wordcount带你get combiner, 此文绝对精辟...)

放肆桀骜

05-20

1052

一个MapReduce的job，在map之后，reduce之前，会有一个数据聚集的过程，即map完的数据会按照key聚集在一起，会有一个shuffle的过程，然后再进入reduce。 combiner好处：降低shuffle write写磁盘的数据量。降低shuffle read拉取数据量的大小。降低reduce端聚合的次数。在不同的节点上的map会将同一个key的数据传输到同一个...

Combiner合并案例，Java初级程序员应该掌握的知识

m0_60388419的博客

03-27

978

由于文案过于长，在此就不一一介绍了，这份Java后端架构进阶笔记内容包括：Java集合，JVM、Java并发、微服务、SpringNetty与 RPC 、网络、日志、Zookeeper 、Kafka 、RabbitMQ 、Hbase 、MongoDB、Cassandra 、Java基础、负载均衡、数据库、一致性算法、Java算法、数据结构、分布式缓存等等知识详解。本知识体系适合于所有Java程序员学习，关于以上目录中的知识点都有详细的讲解及介绍，掌握该知识点的所有内容对你会有一个质的提升，

大数据学习（七）：mapreduce实现wordcount计数

01-07

mapreduce 0.0.1-SNAPSHOT mapreduce http://maven.apache.org UTF-8 org.apache.hadoop hadoop-client 2.8.1 一、在eclipse使用main方法提交给集群yarn运行mapreduce 1、计数mapper实现 package ...

大数据实验5实验报告：MapReduce 初级编程实践

06-20

【MapReduce初级编程实践】是大数据处理中的一项基础任务，主要应用于大规模数据集的并行计算。在这个实验中，我们关注的是如何利用MapReduce来实现文件的合并与去重操作。MapReduce是一种分布式计算模型，由Google...

MapReduce WordCount

最新发布

05-14

在实际应用中，MapReduce的性能可以通过多种方式优化，比如Combiner的使用，它可以本地化减少数据传输量；Partitioner可以控制数据的分布，提高效率；以及通过Secondary Sort来改进输出键值对的顺序。此外，随着...

Hadoop入门：MapReduce与WordCount实战解析

"初学Hadoop之图解MapReduce与WordCount示例分析" MapReduce是Apache Hadoop项目的核心组件之一，用于处理和生成大规模数据集。这个分布式计算模型由Google首次提出，随后被Hadoop开源社区实现。MapReduce将复杂的...

hadoop mapreduce wordcount

08-24

<artifactId>wordcount <version>0.0.1-SNAPSHOT <packaging>jar <name>wordcount <url>http://maven.apache.org</url> <project.build.sourceEncoding>UTF-8 <groupId>org.apache.hadoop ...

Hadoop Mapreduce组合器(Combiner)示例

纸上得来终觉浅，绝知此事要躬行

02-09

3568

这个例子解释了关于Apache Hadoop的Map-Reduce和Combiner范例如何在MapReduce中逐步编写字计数示例。接下来，我们看到了如何在eclipse中执行示例以用于测试目的，以及如何在Hadoop集群中使用HDFS为输入文件执行。本文还提供了有关在Ubuntu上设置Hadoop，设置Hadoop集群，了解HDFS和基本FS命令的其他有用文章的链接。我们希望，本文的目的是解释Hadoop MapReduce的基础知识，为您提供了解Apache Hadoop和MapReduce的坚

combiner函数的使用注意事项和代码演示

涤生大数据

01-20

5743

1.Combiner功能是：合并汇总(shuffle中的组件) 1）combiner是MR程序中Mapper和Reducer之外的一种组件。 2）combiner组件的父类就是Reducer，也就是说combiner是继承之reducer的，相当于reducer 3）combiner和reducer的区别在于运行的位置：Combiner是在每一个maptask所在的节点运行，然后Reduce

Hadoop大数据开发基础系列：五、MapReduce进阶编程

Nelson_hehe的博客

10-18

6690

五、MapReduce进阶编程目录： 1.筛选日志文件并生成序列化文件 2.HadoopJavaAPI读取序列化日志文件 3.优化日志文件统计程序 4.Eclipse提交日志文件统计程序 5.小结 6.实训 7.小练习任务背景：网站运营方又提出来新的需求，为了比较今年与去年同期的用户访问数据，要求分别统计出2016年1月与2月的用户访问次数，并输出到不同的目录中。在本章中...

Hadoop实战之课后题--分析web服务器的日志文件

越努力越幸运

03-03

958

任务统计每个IP地址的访问次数查找访问数最多的前K个IP地址分析：任务1很简单，简单的求和问题，用来重新熟悉hadoop MR程序的写法。优化：使用combiner()减少网络中的流量传输；这个例子中combiner和reducer的逻辑相同，两种使用同一个reduce即可。代码贴在附录里了，注释详细，可查看~ 任务2是一个TopK的问题，要点有以下几个：使用TreeMap来得到

Combiner

大数据

10-10

1万+

一、Combiner Combiner是MR程序中Mapper和Reduce之外的一种组件 Combiner组件的父类就是Reducer Combiner和Reducer之间的区别在于运行的位置 Reducer是每一个接收全局的Map Task 所输出的结果 Combiner是在MapTask的节点中运行每一个map都会产生大量的本地输出，Combiner的作用就是对map输出的结果先做一次合并...

MapReduce中Combiner的作用