MapReduce:Combiner，partition的作用

最新推荐文章于 2023-05-01 11:12:35 发布

Rnan-prince

最新推荐文章于 2023-05-01 11:12:35 发布

阅读量1.9k

点赞数 2

分类专栏： hadoop 大数据文章标签： hadoop mapreduce combiner partition

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_19446965/article/details/111085595

版权

大数据同时被 2 个专栏收录

29 篇文章 1 订阅

订阅专栏

11 篇文章 0 订阅

订阅专栏

combiner其实属于优化方案，由于带宽限制，应该尽量map和reduce之间的数据传输数量。它在Map 端把同一个key的键值对合并在一起并计算，计算规则与reduce一致，所以combiner也可以看作特殊的Reducer。

Partition作用

partition意思为分开，划分。它分割map每个节点的结果，按照key分别映射给不同的reduce，也是可以自定义的。其实可以理解归类。也可以理解为根据key或value及reduce的数量来决定当前的这对输出数据最终应该交由哪个reduce task处理。

partition的作用就是把这些数据归类，将map的结果发送到相应的reduce。

每个map任务会针对输出进行分区，及对每一个reduce任务建立一个分区。划分分区由用户定义的partition函数控制，默认使用哈希函数来划分分区。

partition过程如下：

1）计算(key，value)所属与的分区。

当map输出的时候，写入缓存之前，会调用partition函数，计算出数据所属的分区，并且把这个元数据存储起来。

2）把属与同一分区的数据合并在一起。

当数据达到溢出的条件时（即达到溢出比例，启动线程准备写入文件前），读取缓存中的数据和分区元数据，然后把属与同一分区的数据合并到一起。

Combiner作用

1）每一个map可能会产生大量的输出，Combiner的作用就是在map端对输出先做一次合并，以减少传输到reducer的数据量。

2）Combiner最基本是实现本地key的归并，Combiner具有类似本地的reduce功能。

如果不用Combiner，那么，所有的结果都是reduce完成，效率会相对低下。

使用Combiner，先完成的map会在本地聚合，提升速度。

注意：Combiner的输出是Reducer的输入，如果Combiner是可插拔的，添加Combiner绝不能改变最终的计算结果。所以Combiner只应该用于那种Reduce的输入key/value与输出key/value类型完全一致，且不影响最终结果的场景。比如累加，最大值等。

注意事项

不是每种作业都可以做combiner操作的，只有满足以下条件才可以：

1）combiner只应该用于那种Reduce的输入key/value与输出key/value类型完全一致，因为combine本质上就是reduce操作。

2）计算逻辑上，combine操作后不能影响计算结果，像求和，最大值就不会影响，求平均值就影响了。

参考：

https://book.itheima.net/study/1269935677353533441/1268099156577132546/1268104655611666434

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
MapReduce:Combiner，partition的作用

combiner其实属于优化方案，由于带宽限制，应该尽量map和reduce之间的数据传输数量。它在Map 端把同一个key的键值对合并在一起并计算，计算规则与reduce一致，所以combiner也可以看作特殊的Reducer。Partition作用partition意思为分开，划分。它分割map每个节点的结果，按照key分别映射给不同的reduce，也是可以自定义的。其实可以理解归类。也可以理解为根据key或value及reduce的数量来决定当前的这对输出数据最终应该交由哪个reduce ta
复制链接

扫一扫

专栏目录

Rnan-prince CSDN认证博客专家 CSDN认证企业博客

码龄10年

336: 原创

2万+: 周排名

3032: 总排名

130万+: 访问

: 等级

1万+: 积分

594: 粉丝

1094: 获赞

185: 评论

5681: 收藏

私信

关注

热门文章

分类专栏

python 125篇
数据结构 36篇
工具 45篇
Linux 33篇
机器学习 57篇
网络通信 11篇
软件测试 4篇
计算机 3篇
web 5篇
渗透测试 18篇
PHP 3篇
HTTP 7篇
spark 12篇
hadoop 11篇
设计模式 12篇
HDFS 3篇
HTML 8篇
网络爬虫 8篇
java 25篇
算法 51篇
笔试 18篇
题库 30篇
面试 9篇
数据库 13篇
操作系统 11篇
SPSS 5篇
大数据 29篇
网络安全 33篇
异常检测 19篇

最新评论

MinHash算法
t特嗷桃: h2应该是0 2 0 0
Numba：加速python代码
Rnan-prince: 你好可能是py版本或软件问题，你换版本试一下
Numba：加速python代码
ZOU_ZH: AttributeError: 'function' object has no attribute 'inspect_types'
Git学习手册（收藏）
CSDN-Ada助手: 软件工程问题：在项目开始之前, 有很多队员还没有接触过编程语言（例如C#），导致PM在分配任务时很难用时间来衡量，就拿写一个Web Service这一模块来说，一个熟练的程序员可能只需要两个小时，而对于初学者来说，就得先花两天来理解Web Service的实现机制和原理。在有限时间的催促下，导致一些紧急的任务不断向高手集中，而初学者的任务越来越少。这时应该怎么办？
python 设置linux环境变量
风白君: 要得就是临时修改，永久修改自己改linux环境文件不就行了

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。