mapreduce

最新推荐文章于 2023-11-09 21:48:15 发布

free_to_fly

最新推荐文章于 2023-11-09 21:48:15 发布

阅读量302

点赞数

1. Hadoop学习笔记：MapReduce框架详解

2. MapReduce高级编程

3. mr经典案例

1. map的输出<key，value>经过shuffle过程聚集成<key，value-list>后会交给reduce
2. reduce的输入每个key所对应的value将是一大串1，但处理的文本很多时，这一串1已将占用很大的带宽，如果我们在map的输出给于reduce之前做一下合并或计算，那么传给reduce的数据就会少很多，减轻了网络压力。此时Combiner就排上用场了。我们现在本地把Map的输出做一个合并计算，把具有相同key的1做一个计算，然后再把此输出作为reduce的输入，这样传给reduce的数据就少了很多。
Combiner是用reducer来定义的，多数的情况下Combiner和reduce处理的是同一种逻辑，所以job.setCombinerClass()的参数可以直接使用定义的reduce，当然也可以单独去定义一个有别于reduce的Combiner，继承Reducer，写法基本上定义reduce一样。
3. 熟悉MapReduce过程的读者会很快想到在MapReduce过程中就有排序，在使用之前首先需要了解它的默认排序规则。它是按照key值进行排序的，如果key为封装int的IntWritable类型，那么MapReduce按照数字大小对key排序，如果key为封装为String的Text类型，那么MapReduce按照字典顺序对字符串排序。

调节map和reduce的个数

http://irwenqiang.iteye.com/blog/1535809

http://blog.csdn.net/wf1982/article/details/6672607

http://www.songyafei.cn/post/a0d5b_140a7cf

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
mapreduce

1. Hadoop学习笔记：MapReduce框架详解2. MapReduce高级编程
复制链接

扫一扫

free_to_fly CSDN认证博客专家 CSDN认证企业博客

码龄13年

102: 原创

20万+: 周排名

227万+: 总排名

11万+: 访问

: 等级

2185: 积分

8: 粉丝

8: 获赞

5: 评论

22: 收藏

私信

关注

热门文章

分类专栏

C++ 4篇
C++ 链表
链表 1篇
面试 2篇
MINA
codereview java 1篇

最新评论

求一个区间[a,b]中数字1出现的次数
Daxiunewpoint: 之前试了很多题解不太清楚，直到看了这个，一下就弄懂了。
求二叉树的深度和宽度
vancooler: 请问currentsize不需要随着队列存入的子节点多少而改变吗？
2015届美团笔试
free_to_fly 回复 Kathryn_: 假设任务都是相同的，执行任务的机器所需要的时间最小时间是t，t最小是0，t上限是【任务数*最小的机器执行时间】，找到上限和下限后进行二分查找。。。二分查找的过程中通过判断【假设mid是最小时间，判断mid是否能满足当前的n个任务】来决定继续在左边二分还是右边二分。。。
2015届美团笔试
Kathryn_: 能说下第一题的思路吗？没看明白
04-27 看面经做题
西瓜_guns: 简单题一开始都没做对。。。我真是水爆了。。。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。