啥？！BM25 比语义向量检索效果好？

最新推荐文章于 2024-12-18 09:26:46 发布

kaiyuan_sjtu

最新推荐文章于 2024-12-18 09:26:46 发布

阅读量1.3k

点赞数 1

文章标签：字符串机器学习人工智能深度学习编程语言

本文链接：https://blog.csdn.net/Kaiyuan_sjtu/article/details/118125206

版权

NewBeeNLP公众号原创出品

公众号专栏作者 @Maple小七

北京邮电大学·模式识别与智能系统

TL;DR

虽然以SentenceBERT为代表的语义向量检索展现出了超越传统的以BM25为代表的稀疏向量检索的性能，但是还没有人研究过索引量和向量维数对稠密向量检索性能的影响。

本文作者通过理论和实验来证明了随着索引量的增大，稠密向量检索的表现比起稀疏向量检索下降得更快，在极端情况下，稀疏向量检索反而优于稠密向量检索。

论文：The Curse of Dense Low-Dimensional Information Retrieval for Large Index Sizes

链接：https://arxiv.org/abs/2012.14210

开篇

传统的信息检索技术通常使用TF-IDF、BM25这类稀疏表示来检索文档，然而这些方法都建立在用户查询与相关文档存在词汇重叠的基础之上。然而现实世界并不会这么理想，稀疏向量查询通常会存在棘手的词汇空缺或语义鸿沟问题(lexical/semantic gap)。

「语义鸿沟」可以理解为是自然语言词汇的稀疏性和语法的多样性，这些现象可以通过同义词典、句式变换等方式来改善。

「词汇空缺」是源自翻译语言学的现象，我们可以将其简单地理解为用户查询与文档的不对称性，比如FAQ语料库通常存储的都是比较标准，正式的问句，然而真实场景下用户的提问通常非常口语化，标准问句和真实查询的字面匹配分数常常很低，这就不仅仅是单纯的词汇或句法差异了，而是更高层次的风格上的差异，甚至可以理解为两种不同的语言，这实际上也是当前的搜索引擎在正式检索文档前必须对用户查询进行复杂的修正、解析、理解，而不是直接计算TF-IDF的原因。

将用户查询浓缩为关键词的过程是非常复杂的，有没有直接将用户查询与文档进行匹配的方式呢？这正是稠密向量查询想要达到的效果，也就是将查询和文档映射到同一个低维向量空间，通过计算余弦相似度来检索相关文档，关于稠密向量表示的探索可以追溯到经典的潜在语义分析(LSA)，2013年的DSSM首次将深度学习方法引入了稠密向量检索，目前，以SentenceBERT为代表的语义检索模型在很多数据集上超越了基于稀疏向量的检索方法。

然而，这些模型的实验数据集的索引量大多都比较小，其中最大的MS Macro数据集也只有八百万个文档，然而在实际的应用场景中，索引量常常能够达到上亿的量级。当索引量非常大的时候，稠密向量表示还优于稀疏向量表示吗？接下来，我们分别从理论和实践的角度来分析这个问题。

Theory

给定一个查询向量和文档向量，分别计算查询和文档的余弦相似度：

直观上来看，查询结果的假阳性率(false positives)会随着索引量的增大而增大，不妨假设文档向量相互独立，如果要保证没有检索到假阳性文档，则需要满足

其中是与相关的文档向量，如果该条件不满足，则出现假阳性的概率为

可以发现随着索引量的增大，出现假阳性的概率的确也是增大的。

但假阳性率和向量维数的关系就没这么直观了，对于随机的，我们希望求出具体的假阳性率:

首先，不妨将维文档向量标准化为单位向量，当满足的时候，则为假阳性，因此我们考虑用维超平面从单位球面上切出会出现假阳性的区域，一个随机生成的向量被判定为假阳性的概率为

其中是切出来的区域的表面积，则是单位球面的面积。以二维空间为例，如下图所示，当落入红色区域时，则为假阳性文档。

高维空间就很难直观地理解了，维空间中的计算公式为

其中为和形成的极角，为正则不完全贝塔函数：

针对相同的夹角，是随着维数的递增而单调递减的，也就是说，向量维数越大，出现假阳性文档的概率就越小。

因此，虽然稠密向量索引的优势之一在于向量维数远小于稀疏向量索引，非常节省内存，但过小的维数会导致假阳性率的提升，同时当索引量越来越大时，低维稠密表示比起高维稠密表示会有更高的假阳性率。

Empirical Investigation

上面的理论证明均假设了向量是独立均匀分布的，这实际上只为我们提供了一个假阳性率的下界。实际上，正如BERT-flow^[1]里面提到的一样，模型学习到的稠密向量分布通常是各向异性的，这些向量在整个向量空间中只占据了一个狭窄的锥形空间，这样的性质将大幅度提升检索结果的假阳性率，因此作者希望通过实验来观察这种现象到底有多严重。