Hadoop浅解Combiner

最新推荐文章于 2023-06-30 18:45:00 发布

NobiGo

最新推荐文章于 2023-06-30 18:45:00 发布

阅读量624

点赞数

分类专栏： Hadoop入门文章标签： hadoop

本文链接：https://blog.csdn.net/it_dx/article/details/57571955

版权

Hadoop入门专栏收录该内容

16 篇文章 1 订阅

订阅专栏

这篇博客之前好久写的，现在完善一下：

一、Combiner的出现背景

我们可以发现在Hadoop运行Wordcount的过程中会出现如下记录：

Combine input records=0

Combine output records=0

其中有两个计数器： Combine output records 和 Combine input records ，他们的计数都是0，这是因为我们在代码中没有进行Map阶段的规约操作。

二、为什么需要进行Map规约操作

由上一篇笔记可以知道，Hadoop框架使用Mapper将数据处理成一个个的 <key,value >键值对，在网络节点间对其进行整理(shuffle)，然后使用Reducer处理数据并进行最终输出。

在上述过程中，至少存在两个性能瓶颈：

（1）如果我们有10亿个数据，Mapper会生成10亿个键值对在网络间进行传输，但如果我们只是对数据求最大值，那么很明显的Mapper只需要输出它所知道的最大值即可。这样做不仅可以减轻网络压力，同样也可以大幅度提高程序效率。

总结：网络带宽严重被占降低程序效率；

（2）假设使用美国专利数据集中的国家一项来阐述‘数据倾斜’这个定义，这样的数据远远不是一致性的或者说平衡分布的，由于大多数专利的国家都属于美国，这样不仅Mapper中的键值对、中间阶段(shuffle)的键值对等，大多数的键值对最终会聚集于一个单一的Reducer之上，压倒这个Reducer，从而大大降低程序的性能。

总结：单一节点承载过重降低程序性能；

那么，有木有一种方案能够解决这两个问题呢？

三、初步探索Combiner

在MapReduce的编程模型中，在Mapper和Reducer之间有一个非常重要的组件，它解决了上述的瓶颈问题，它就是Combiner。

Special Note：

与mapper和reducer不同，Combiner没有默认的实现，需要显示的设置在conf中才有作用。
并不是所有的job都适用Combiner，只有满足结合律的才可设置Combiner。combine操作类似于：opt(opt(1, 2, 3),opt(4,5,6))。如果opt为求和、求最大值的话，可以使用，但是如果是求中值的话，不适用。

每一个Mapper都会产生大量的本地输出，Combiner的作用就是对Map端产生的输出做一次合并，以减少Map和Reducer节点之间的传输量，以提高网络的IO性能，是Mapreduce的一种性能优化手段之一。

Combiner最基本是实现本地key的聚合，对map输出的key排序，value进行迭代。如下所示：

map: (K1, V1) → list(K2, V2)
说明：map产生键值对（hello,1;wrod,1;hello,1;world,1）

combine: (K2, list(V2)) → list(K3, V3)
说明:combine对本地key进行排序聚合（hello,2;world,2）

reduce: (K3, list(V3)) → list(K4, V4)

Special Note：
- 一个combiner只是处理一个结点中的的输出，而不能享受像reduce一样的输入（经过了 shuffle 阶段的数据），这点非常关键。

Combiner:前面展示的流水线忽略了一个可以优化MapReduce作业所使用带宽的步骤，这个过程叫Combiner，它在Mapper之后Reducer之前运行。Combiner是可选的，如果这个过程适合于你的作业，Combiner实例会在每一个运行map任务的节点上运行。Combiner会接收特定节点上的Mapper实例的输出作为输入，接着Combiner的输出会被发送到Reducer那里，而不是发送Mapper的输出。Combiner是一个“迷你reduce”过程，它只处理单台机器生成的数据.

例如：

词频统计是一个可以展示Combiner的用处的基础例子，上面的词频统计程序为每一个它看到的词生成了一个（word，1）键值对。所以如果在同一个文档内“cat”出现了3次，（”cat”，1）键值对会被生成3次，这些键值对会被送到Reducer那里。通过使用Combiner，这些键值对可以被压缩为一个送往Reducer的键值对（”cat”，3）。现在每一个节点针对每一个词只会发送一个值到reducer，大大减少了shuffle过程所需要的带宽并加速了作业的执行。这里面最爽的就是我们不用写任何额外的代码就可以享用此功能！如果你的reduce是可交换及可组合的，那么它也就可以作为一个Combiner。

详细过程分析：
如果在上述的Mapreduce过程中加入job.setCombinerClass(Reduce.class)则：

文件内容如图所示：

这里写图片描述

输出结果分析：

NoCombiner	Combiner
Combine input records=0	Combine input records=12
Combine output records=0	Combine output records=6
Map的输入key:0,value:Hello world bye world	Map的输入key:0,value:Hello world bye world
Map的输出key:Hello,value:1	Map的输出key:Hello,value:1
Map的输出key:world,value:1	Map的输出key:world,value:1
Map的输出key:bye,value:1	Map的输出key:bye,value:1
Map的输出key:world,value:1	Map的输出key:world,value:1
Map的输入key:22,value:Hello world bye world	Map的输入key:22,value:Hello world bye world
Map的输出key:Hello,value:1	Map的输出key:Hello,value:1
Map的输出key:world,value:1	Map的输出key:world,value:1
Map的输出key:bye,value:1	Map的输出key:bye,value:1
Map的输出key:world,value:1	Map的输出key:world,value:1
	Reduce的输出:keyHello,value:2
	Reduce的输出:keybye,value:2
	Reduce的输出:keyworld,value:4
Map的输入key:0,value:Hello Hadoop bye Hadoop	Map的输入key:0,value:Hello Hadoop bye Hadoop
Map的输出key:Hello,value:1	Map的输出key:Hello,value:1
Map的输出key:Hadoop,value:1	Map的输出key:Hadoop,value:1
Map的输出key:bye,value:1	Map的输出key:bye,value:1
Map的输出key:Hadoop,value:1	Map的输出key:Hadoop,value:1
	Reduce的输出:keyHadoop,value:2
	Reduce的输出:keyHello,value:1
	Reduce的输出:keybye,value:1
Reduce的输出:keyHadoop,value:2	Reduce的输出:keyHadoop,value:2
Reduce的输出:keyHello,value:3	Reduce的输出:keyHello,value:3
Reduce的输出:keybye,value:3	Reduce的输出:keybye,value:3
Reduce的输出:keyworld,value:4	Reduce的输出:keyworld,value:4
Mapper运行次数：3	Mapper运行次数：3
Reduce运行次数：4	Reduce运行次数：4+3+3