检索模型及评价指标小结

最新推荐文章于 2024-07-19 14:42:30 发布

nanjunxiao

最新推荐文章于 2024-07-19 14:42:30 发布

阅读量8.7k

点赞数

分类专栏：机器学习文章标签：检索模型评价指标信息检索

本文链接：https://blog.csdn.net/nanjunxiao/article/details/8976238

版权

本文总结了经典检索模型，包括布尔模型、矢量空间模型（VSM）、概率模型和语言模型，以及信息检索的评价指标，如准确率、召回率、F值、AP、MAP、P@n和NDCG。布尔模型基于集合论，VSM通过TF-IDF计算相似度，概率模型以BM25公式为代表，语言模型利用文档生成查询的概率进行排序。

摘要由CSDN通过智能技术生成

经典检索模型

信息检索模型从它诞生到现在经历了几个不同阶段，分别是基于集合论、基于线性代数、基于统计和概率阶段。虽然专家检索不同于传统的信息检索，但两者还是有很大关联，并且本文也将基于对专家描述文档的检索作为Baseline，作为后续优化的基础。因此了解传统检索模型是很有必要的，本文下面将对不同阶段的经典模型进行摘要性介绍。

2.1.1.1 布尔模型

布尔模型是一个简单但却优雅的模型，它基于集合论和布尔代数理论。它在过去备受关注并被广泛应用到了很多早期商业搜索引擎中，近些年它逐渐被矢量空间模型和概率模型所取代，但仍然在信息检索领域占有一席之地，作为很好的Baseline来使用。

布尔模型基于如下的假设：1.一篇文档可以由词的集合表示。2.查询可以表示为关键词用AND，OR，NOT逻辑运算符连接的布尔表达式。3.如果文档中的索引词满足查询的布尔表达式，那么该文档就是相关的。

例如用户查询为“苹果 AND （乔布斯 OR ipad4）”，如果一篇文章包含“苹果”，并且同时包含“乔布斯”或者“ipad4”其中一个，那么这篇文章就是相关的，就是满足用户需求的。

布尔模型很容易理解，也很容易实现，并且有布尔代数为其提供理论支持。

但布尔模型有一个致命不足，它是严格二元相关的（0或1），即相关或者完全不相关，不能反映相关的不同程度，并且它返回的结果是无序的，过于粗糙。例如

Q=World^Cup^South^Africa^2010，Index(d)={World,Cup,South,Africa}，

d将被认为不相关。再如，

Q=World||Cup||South||Africa||2010,Index(d1)={World,Cup,South,Africa,2010}；

Index(d2)={2010}，此时d1和d2将被认为同等相关，尽管d1明显更相关一些。此外要求普通用户有能力自己构造恰当布尔表达式查询可能也不切实际。

2.1.1.2 矢量空间模型（VSM）

信息检索领域奠基人Salton于70年代提出了VSM模型，相对于布尔模型的严格二元相关，它提出了部分匹配的检索策略。VSM模型作为一种文档表示和相似度计算模型，不仅在检索领域，在文本挖掘、自然语言处理等领域也被广泛采用。

VSM将查询和文档都表示为词的集合，并映射到一个高维空间，其中每一维代表文档集合中的一个词，通过计算查询词集所代表的空间向量和文档词集所代表的空间向量的相似度作为文档和查询的相关度。

VSM将词映射到高维空间时转化为权重，比较常用的映射函数是TF*IDF，它同时考虑了词在该文档和文档集合中的出现情况。一个基础的TF*IDF公式如下：

ω=tf_i(d)*log(N/df_i) （2-1）

（2-2）

其中N为文档集合中文档的数目，tf_i(d)称为词频，为词i在文档d中出现的次数，df_i文档频率，为文档集中含有词i的文档数。根据TF*IDF公式，文档中某一词出现的频率越高，权值越大，说明该词表示文档的属性越强；但当文档集合中包含该词的文档越多，其权值越小，说明该词区分性较小，表示文档的属性越弱。

VSM模型中，特征权值的计算框架为TF*IDF，但具体TF，IDF计算公式却有多种变形：

一种TF变体公式为：Wtf = 1+ log(TF)，该公式是为了抑制词频过大带来的副作用。即一个单词在一篇文档中出现了10次，在另一篇文档中出现了1词，按照公式（2-1）TF会相差10倍，但实际上我们不需要这么大的差异，选取log进行缓冲，其中公式中的1是为了词频为1时的平滑。

另一种TF变体公式为：，该公式是为了对长文档的抑制。TF表示单词在文档中的实际词频，Max（TF）代表该文档中次数最多的那个单词的词频。α是调节因子，新的研究表明α取0.4效果比