网络信息检索（二）扩展检索模型

本文链接：https://blog.csdn.net/csyifanZhang/article/details/104799446

本文探讨了信息检索模型的多种扩展方法，包括模糊集合模型、扩展布尔模型、向量空间模型及其广义和潜语义索引变体，以及概率模型的改进。重点分析了各模型的优缺点及适用场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章结构

总览
布尔模型扩展
3．向量空间模型扩展
4．概率模型的扩展
- （1）语言模型
一些小问题

总览

在这里插入图片描述

布尔模型扩展

需要改进的地方：完全匹配和无结果排序的问题

（1）模糊集合模型

对布尔模型而言，一个词和文档的关系只有0或者1，但是相近的词呢？引入词对文档的隶属度的概念（80%包含，50%包含etc。）如何定义隶属度呢？

通过定义词－词关联矩阵（term-term correlation matrix），对查询词进行扩展，以提取更多的相关的文档。通过放松对集合成员的约束条件来得到排序结果
在这里插入图片描述

① 查询词扩展

两个词关系好不好就看他们是否经常一起出现。Cii=1
在这里插入图片描述
如果dj的所有索引词和ki都关系不大，那么\mu=0，如果关系很大cil=1,1-cil=0,整体的相似度就会为1。相比于布尔模型，有索引词的文档相关性就是1，这样无疑可以进行排序了。

（2）扩展布尔模型

3．向量空间模型扩展

以词作为基向量显然是不正交的，这就是他需要改正的地方。

（1）广义向量空间模型

以索引词的出现模式作为词的基向量，1表示该索引词出现，这显然是正交的。
在这里插入图片描述
对三个索引词就有八种出现的模式。

优缺点：

（2）潜语义索引模型

通过SVD分解等处理，去掉噪音，消除同义词，多义词的影响（将他们合并），大大降低向量空间的维度。
在这里插入图片描述
通过降维将M转化为一个稠密矩阵，利用奇异值分解，只保留最大的s个奇异值，得到新的矩阵，将文档和查询向量映射到与概念向关联的维数较低的空间。用标准的余弦相似度计算复杂度。

优缺点：

（3）词向量

One-hot向量不能挖掘出词与词之间的关系。使用分布式表示的方法计算向量之间的距离来体现词与词之间的相似性。
在这里插入图片描述

类似于DL的方法，每个词都给一个向量表示，可以很方便的计算词与此之间的联系。在机器翻译方面工作的很好

4．概率模型的扩展

需要改进的地方：二值权重可以改进，独立事件的假设

（1）语言模型

着重于探索文档的语言风格，查询的语言风格，相近语言风格的文档可能更符合查询的需要。
在这里插入图片描述
所谓的文档模型就是统计文档中每个词的词频，有了每个词的词频，我们就可以对一个索引计算概率

哪个文档产生该查询的概率越大，说明相似度越高，越稳。显然这种计算方式假设词与词之间是独立的，直接将词出现的概率相乘。
在这里插入图片描述
又：防止结果奇异，要加上平滑操作。因此查询可以分为两部分，一个是在该文档中出现的频率，一个是不在在全部文档中出现的概率。

一些小问题

1.模糊集合论模型中的文档隶属度是指什么？与什么因素有关？

文档隶属度是文档隶属于某索引词的度量，如果该文档包含的词语和某个索引项有关，那么该文档就属于对应索引项的模糊集合，他的计算方法是对每一个文档集中包含的词，通过词-词关联矩阵，计算出他们与该索引词不相关的因子之积，然后用1减去，就是整个文档对该索引词的隶属度。显然只要有任意一个词和索引词关联因子为1，那么所有不相关因子之和就会为0，隶属度为1，这正是布尔模型的特例。通过他的计算方法，我们也可以看出，与隶属度相关的因素有（i）文档中包含的词语。(ii)词-词关联矩阵的值

2.广义向量空间模型以什么为基向量？该模型的主要缺点是什么？

广义向量空间模型的基向量比较特殊，它是以词语出现的模式为基向量。如果有两个词语，那么基向量有四个（0,0）（0,1）（1,0）（1,1），可以满足完全正交的条件。但是一旦词语一多，向量空间的维数指数增长，计算开销极大。

3.潜语义标引模型对什么矩阵进行SVD分解？什么是概念空间？

对M矩阵进行SVD分解，所谓的M矩阵，也就是文档-词汇矩阵，mij表示词汇ki在文档dj中的权重，词汇很多，但是一篇文章有的词汇却很少，一个稀疏矩阵无论是在计算还是在存储都会造成资源的浪费。因此对M进行SVD分解可以节省很多资源。潜语义索引模型的概念空间的含义是，每一维都代表一个基本的概念，所有的维度就形成了模型的概念空间，所有的查询和文档都会被映射到这个概念空间进行处理，而SVD就是为了构造一个更低维，高效的概念空间。

4.什么是“词汇鸿沟”？请描述词向量，包括维度、向量形式、构建方法等。

词汇鸿沟对应着词袋模型的基本假设：词与词之间是相互独立的，在前面的很多使用向量的模型里，一个词语往往是一个one-hot向量，在这个情况下，我们不能体现出词与词之间的相互关系，而且随着词语的增多，维度迅速增大。这时我们使用word2vec，一个浅层的神经网络，包含输入层，隐藏层和输出层。输入层和输出层的维度为N（词汇表的大小）,隐藏层的维度为D（词向量的维度），输入层接受单词a的one-hot编码，输出层计算所有单词出现在a上下文的概率，word2vec在语料库中进行训练。训练完成后神经网络输入层到隐藏层之间的权重矩阵V（N*D）就是词向量矩阵，可以看到每个词现在的表示维度只有D，很好用。

一元语言模型的前提条件是什么？语言模型中包含TF-IDF吗？

一元语言模型十分简单，他的条件就是词汇的出现是相互独立的，并且把查询中的每个词语相互独立。我认为是包含的，一元语言模型将查询分成了general language model 和individual-document model，二者分别计算统计的是查询q中的索引词ki在当前文档的词频，和全部文章的词频，这其实就是TF-IDF的意义。