Map设计和Reduce设计

最新推荐文章于 2023-08-25 10:15:36 发布

oraclestudyroad

最新推荐文章于 2023-08-25 10:15:36 发布

阅读量957

点赞数

分类专栏： hadoop

hadoop 专栏收录该内容

74 篇文章 1 订阅

订阅专栏

Hadoop认证课程：Map设计和Reduce设计，单词词频统计WordCount是Hadoop自带的一个简单的应用，它可以计算出指定文本集中每一个单词出现的次数。要利用MapReduce编程模型去实现一个词频统计的并行程序，对于开发者来讲需要做两件事：第一是如何将顺序执行的词频统计算法流程转化为MapReduce的处理模式，具体就是如何设计Map和Reduce的输入和输出的键值对，以及Map和Reduce分别如何处理，而具体的Map和Reduce数据流控制是由Hadoop来做的，开发者无须干涉;第二就是根据MapReduce的算法设计伪代码编程实现Hadoop的MapReduce函数接口。下面分别设计Map和Reduce函数。

在设计Map时，输入的是文档，默认Map函数的输入key是行偏移，value是一行本身的内容，当然可以指定key为文档id，那么在Map中就可以这样处理：

Map(文档id，文档)(词，计数)

需要将文档内容处理为<词，计数>键值对，这里的词是分词。为了简化我们只考虑英文状态，因此就不涉及中文分词了，计数值可以直接指定为1，空格切分后直接输出<词，1>键值对。

Map处理算法的伪代码如下：

Class Mapper

Method Map(docid a,doc d)

For each term t属于 d do

Emit(term t, count 1)

在Reduce设计中，输入就是Map的输出，也就是Reduce输入的键值对就是Map输出的键值对，同时还需要注意在Map处理完之后是会按照key进行排序的，因此在Reduce处理之前Map的结果就已经是有序的了，这样Map结果中相同的key的value都全部在一起了，那么Reduce函数就可以这样设计：

Reduce(词，计数[……])(词，计数求和)

在Reduce中需要对相同key的value值求和，这样就可以得到每一个单词的频率。Reduce处理算法的伪代码如下：

Class Reducer

Method Reduce(term t,count[c1,c2,...])

Sum =0

For each count c 属于 count[c1,c2,...] do

sum=sum+c

Emit(term t, count sum)

Reduce算法的思想很简单，就是对于每一个单词term，将其所有值相加，然后输出。

Reduce就是一个归约求和的过程，用户不需要关心Map之后的排序，以及Map的输出被shuffle映射到哪些Reduce作为输入，这些都是用Hadoop框架自动完成的。来源：CUUG官网

oraclestudyroad

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Map设计和Reduce设计

Hadoop认证课程：Map设计和Reduce设计，单词词频统计WordCount是Hadoop自带的一个简单的应用，它可以计算出指定文本集中每一个单词出现的次数。要利用MapReduce编程模型去实现一个词频统计的并行程序，对于开发者来讲需要做两件事：第一是如何将顺序执行的词频统计算法流程转化为MapReduce的处理模式，具体就是如何设计Map和Reduce的输入和输出的键值对，以及Map和R
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。