MapReduce几个典型的例子

最新推荐文章于 2024-08-17 21:28:57 发布

月貘苏

最新推荐文章于 2024-08-17 21:28:57 发布

阅读量7.4k

点赞数 1

文章标签： mapreduce 文档网络爬虫 url 正则表达式 processing

在Google的《MapReduce: Simpli ed Data Processing on Large Clusters》论文中，作者向世界阐述了什么是MapReduce。其中的几个关于MapReduce的例子很简单，但是很有代表性。拿来分享一下。

分布式Grep：map函数检查输入行，如果匹配给定的模板（类似于正则表达式的匹配），就把该行输出。reduce函数是一个标识函数，仅用来把中间数据输出。

URL访问频率统计：map函数处理网页请求的日志文件，并输出<URL, 1>的键值对。reduce函数把相同URL访问次数值相加到一起，输出<URL, 总访问数>的键值对。

逆向Web-Link图：map函数把source网页中每一个链接到target URL的结果输出为<target, source>。reduce函数把所有和给定target相关的source URLs连接起来，并且输出<target, list(source)>。举个例子，搜索引擎中输入关键字，网络爬虫就会根据关键字(target)查找相关的网页并找到所有的链接，这些就是list(source)。

主机关键词向量：关键词向量归纳一个文档或一系列文档中最重要的词出现的频率，为一组<word, frequency>的键值对。map函数输出每一个输入文档中的<主机名，关键词向量>的键值对（这里的主机名是从文档的URL中抽取出的）。reduce处理给定主机的所有文档的关键词向量，累加所有的关键词向量，抛掉不常见的关键词，输出<主机名，关键词向量>的键值对。这个很常见的用处就是视频网站上关键词排行榜，都可以这样实现。

倒序索引：map函数解析每一个文档，输出一个序列<word, document ID>键值对。reduce函数所有相同word的键值对，并根据document IDs排序，输出<word, list(document ID)>。输出的键值对集合形成了一个简单的倒序索引。这样可以很容易跟踪关键字在文档库中的位置。

分布式排序：map函数从每一个记录中抽取出key，并输出<key, record>的键值对。reduce函数原样输出所有的键值对。这个计算依赖于MapReduce中的分割函数（Partitioning Function）。

最后给出MapReduce的执行流程图：