MapReduce倒排索引

最新推荐文章于 2023-04-18 22:31:50 发布

我懒得起名随便叫我就行

最新推荐文章于 2023-04-18 22:31:50 发布

阅读量1k

点赞数 2

分类专栏： Hadoop 文章标签： Hadoop MapReduce

本文链接：https://blog.csdn.net/weixin_39791537/article/details/80633967

版权

博客内容介绍了如何使用MapReduce实现倒排索引，强调了在构建过程中，单词和文件名作为key，次数作为value，并通过combiner和两次reduce来合并结果，形成最终的单词-文件名~次数的结构。

摘要由CSDN通过智能技术生成

倒排索引就是某个单词在那些文件中出现的次数，而在最开始学习的Wordcount中是某个文件中那些单词出现的次数，两者正好相反，就像在搜索引擎上搜索一个单词，下面就会罗列出这个单词在哪些文件里出现过。

首先我们就要想好，什么是key,什么是value，map输出的结果是什么，reduce怎样处理才能够得到想要的结果。

在倒排索引中，我们需要得到单词-文件名-次数，因为这个次数是这个单词在这个文件中出现的次数，所以此时单词和文件应该合在一起作为key，次数作为value。但一次reduce过后还需要将结果中单词合并。因为我们最后要的结果是单词-文件名~次数，文件名~次数······所以需要两次reduce,就用到了combiner 。

此时就变得清晰了，第一次map要输出单词和文件名共同为键，用combiner计算出次数,combiner再输出单词和文件名-次数，用reduce进行合并。combine就相当于一次reducer，但combiner在map端。

package mr.inverseIndex;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.ha

最低0.47元/天解锁文章

我懒得起名随便叫我就行

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
MapReduce倒排索引

倒排索引就是某个单词在那些文件中出现的次数，而在最开始学习的Wordcount中是某个文件中那些单词出现的次数，两者正好相反，就像在搜索引擎上搜索一个单词，下面就会罗列出这个单词在哪些文件里出现过。首先我们就要想好，什么是key,什么是value，map输出的结果是什么，reduce怎样处理才能够得到想要的结果。在倒排索引中，我们需要得到单词-文件名-次数，因为这个...
复制链接

扫一扫

专栏目录