MapReduce经典案例-倒排索引

本文介绍了倒排索引的概念和在全文搜索引擎中的作用,详细解析了一个使用MapReduce实现倒排索引的案例,包括Map、Combine、Reduce阶段的处理逻辑,以及Driver程序的实现,最终目的是将源文件内容转化为倒排索引文件。
摘要由CSDN通过智能技术生成

一、案例分析

1.倒排索引介绍

倒排索引是文档检索系统中最常用的数据结构,被广泛应用于全文搜索引擎。倒排索引主要用来存储某个单词(或词组)住一组文档中的存储位置的映射,提供了可以根据内容来查找文档的方式,而不是根据文档来确定内容,因此称为倒排索引(Inverted Index)。带有倒排索引的文件称为倒排索引文件,简称倒排文件(Inverted File)。
通常情况下,倒排文件由一个单词(或词组)和相关联的文档列表组成。如图所示。
在这里插入图片描述
从图可以看出,建立倒排索引的目的是为了更加方便地搜索。例如,单词1出现在文档1、文档4、文档13等文档中;单词2出现在文档2、文档6、文档10等文档中;而单词3出现住文档3、文档7等文档中。
在实际应用中,还需要给每个文档添加一个权值,用来指出每个文档与搜索内容的相关度,最常用的是使用词频作为权重,即记录单词或词组在文档中出现的次数。用户在搜索相关文档时,就会把权重高的推荐给客户。
下面以英文单词倒排索引为例。
在这里插入图片描述
上图可以看出,加权倒排索引文件中,每一行内容对每一个单词进行了加权索引,统计出单词出现的文档和次数。例如索引文件中的笫一行,表示“Hadoop”这个单词在文本filel.txt中出现过1次,在file4.txt中出现过2次,在filel

  • 1
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值