倒排索引

倒排索引(inverted index),也常被称为反向索引、植入档案或反向档案,是一种索引方法,被用来存储在在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引。带有倒排索引的文件我们称为倒排索引文件,简称倒排文件(inverted file)。

举例
数据表:以英文为例,下面是要被索引的文本,如表1-1所示
倒排索引 - 豆豆 - 豆豆的博客
表1-1

索引表:下面我们就得到反向索引文件。如表1-2所示
倒排索引 - 豆豆 - 豆豆的博客
表1-2
简化索引表:我们将PPTID直接用ID来表示,如表1-3所示
倒排索引 - 豆豆 - 豆豆的博客
表1-3
倒排序表:检索的条件“what”,“is”,“it”将对应这个集合:{1,2} {1,1,2,3,4} {1,1,2,3}={1,2}。对于相同的文字,我们得到后面这些完全反向索引,有文档数量和当前查询的单词结果组成的成对数据。同样,文档数量和当前查询的单词结果都从零开始。所以,“bananan”:(3,4)就是说“banana”在第三个文档里(PPT3),而且在第三个文档的位置是第四个单词(地址为4)。
倒排索引 - 豆豆 - 豆豆的博客
表1-4
关于建立倒排索引其实就向我们写一本小说一样,就是要建立一个目录是,让读者清楚知道他想了解的章节标题所对应的页码。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值