信息检索(IR)——索引与检索

最新推荐文章于 2023-07-03 15:17:44 发布

隔壁的NLP小哥

最新推荐文章于 2023-07-03 15:17:44 发布

阅读量4.1k

点赞数 5

分类专栏：信息检索

本文链接：https://blog.csdn.net/hei653779919/article/details/105962613

版权

信息检索专栏收录该内容

7 篇文章

订阅专栏

信息检索(IR)——索引与检索

1. 索引

在介绍这部分内容之前，我们先来回顾一下信息检索系统的基本架构：

在这里插入图片描述

1.1 索引的作用

首先，当用户提交一个query的时候，我们考虑一下，应该如何生成结果？如果直接对文档库中的每一篇文档进行扫描，当文档库特别大或者文档本身就特别大的时候，这种扫描的过程本身就是费时费力的，为了提高检索速度，我们肯定是需要对文档库中的文档进行预处理，这个时候就需要索引结构。

1.2 前向索引

所谓的前向索引，就是将每一篇文档表示成DOCID以及文本内容组成的类向量的模式。下面我们举一个实际的例子来说明一下：

假设当前文档集合中一共包含两篇文档，文档1和文档2，每一篇文档都是由一些字符串所组成。其具体形式如下：
$文档 1 ： b d a b b c b a d c$
$文档 2 ： a b c d a c d b d a b$
为了简化起见，这里每一个字母表示的是一个字符串。则构建出来的前向索引如下所示：
在这里插入图片描述
在前向索引中，文档对应的每一个模块是一个字符串，以及字符串在文档所处的位置。

当query进行查询的时候，仍然是依次扫描每一个文档，但是对于一个字符串的多次出现不需要全部的进行扫描。并且，根据字符串的大小排序，之后在扫描的过程中可以使用二分法进行扫描，加速匹配的过程。这样就在一定程度上加快了检索的速度。

1.3 前向索引的局限性

使用前向索引的时候，仍然需要一篇篇扫描每一篇文档，如果文档集合的规模比较大，这种方式的检索速度仍然可能无法满足检索速度上的需求。

2. 倒排索引

2.1 倒排的概念

首先从索引项中快速的查询文档的索引结构，文档正常被表示成索引项的集合，建立索引是把每一个索引项表示为其出现的文档集合。整个过程称为倒排。

倒排文档一般由两个部分组成：词汇表和记录表。其中词汇表示文本或者文本集合中所包含的所有不同单词的集合。对于词汇表中的每一个单词，其在文本中出现的位置或其出现的文本编号构成一个列表，所有这些列表的集合就是记录表。

我们用一张图来描述一下上面的过程：

在这里插入图片描述
这里需要注意的是：索引文件可以用任何的文件结构来实现，同时索引文件中的词向是文档集合中的词表。

我们给出一个具体的例子来描述一下：

在这里插入图片描述

2.2 倒排索引的改进

2.2.1 位置信息引入

在上面描述的倒排索引中，索引表中是以词为单位进行存储的，这种索引结构的基本假设是各个词之间是独立的。但是在具有应用中，常常需要知道词汇之间的邻接条件，也就是词汇之间是存在一定关系的。例如：“database”后面紧跟着“systems”，“database”和“systems”之间不能间隔超过三个单词等等。

此时，我们需要对原始的记录表进行改进，需要在倒排索引中保存关键词在文档中的位置，文档的组成单元(标题，小标题，句子分割标记等等)。在检索计算的过程中，需要充分利用到位置信息，并且检查文档的组成单元。

下面给出新的倒排索引的结构：

在这里插入图片描述