【信息检索与数据挖掘期末笔记】(二) IR Evaluation

最新推荐文章于 2024-07-19 16:50:04 发布

长命百岁️

最新推荐文章于 2024-07-19 16:50:04 发布

阅读量509

点赞数

分类专栏：信息检索与数据挖掘笔记文章标签：数据挖掘人工智能

本文链接：https://blog.csdn.net/qq_52852138/article/details/128119062

版权

信息检索与数据挖掘笔记专栏收录该内容

6 篇文章 6 订阅

订阅专栏

文章目录

测试集
无序检索结果集合的评价
有序检索结果评价方法

测试集

想要评价一个信息检索模型，我们需要一个测试集，这个测试集包含三个部分

一个文档集
一组用于测试的信息需求集合（Topics，信息需求可以表示成查询，但查询可能只包含信息需求中的一些词）
一组相关性判定结果(topic,document,label) tuples

一般信息检索模型会有很多参数，参数调优要求在训练集上进行，在测试集上测试结果

无序检索结果集合的评价

Precision & Recall

在这里插入图片描述

Accuarcy?

文档集中所有判断正确的文档所占的比例

在这里插入图片描述

没有意义：如果对于一个查询来说，文档集中大部分文档都是不相关的，则检索到的结果对Accuarcy影响不大。什么都不返回，准确率都是 99.99%

在这里插入图片描述

F值

同时采用正确率和召回率两个指标来度量效果的优点：可以满足偏重其中一个指标的场景的需要

F是正确率和召回率的调和平均值 $F = \frac{1}{\alpha^{{\frac{1}{p}+}(1-\alpha)}{\frac{1}{R}}} \$。可以写成如下形式，其中 $\beta^2 = \frac{1-\alpha}{\alpha}$ 。 $\beta>1$ 表示强调召回率， $\beta<1$ 表示强调正确率

在这里插入图片描述

若 $\beta$ 很大，比如 $\beta = 100$ ，那么 $F_{100} = \frac{10001PR}{10000P+R}\$，因为 $10000 P$ 比 $R$ 大很多，因此原式近似于 $F_{100} = \frac{10001PR}{10000P} = R$ ，所以更注重召回率
反之，更注重正确率

为什么不是几何平均值？：若返回所有文档，则得到 100% 召回率，平均值最小为 50%，不合理

正确率和召回率等权重的 $F$ 形式。惩罚 $P, R$ 之间出现小的值

在这里插入图片描述

有序检索结果评价方法

二值相关（相关/不相关）

Precision@K（P@K）

前 K 个返回结果的 Precision（相关文档的比例）

在这里插入图片描述

Mean Average Precision（MAP）

具有好的区别性和稳定性，但是对 Web 搜索来说，用处不大

实际上是在所有的召回率水平上计算正确率

AP：对于一个查询的返回结果中，P@K的平均值

在这里插入图片描述

MAP：不同查询之间 AP 的平均值

在这里插入图片描述

单个系统在不同信息需求上的MAP往往比较大
同一个信息需求在不同系统中的MAP相对小一些
因此测试的信息需求必须足够大，需求之间的差异也要足够大，这样系统在不同查询上体现出的效果才最有代表性

Mean Reciprocal Rank

$K$ 是第一个相关文档出现的位置，$RR = \frac{1}{K} \$

MRR 就是不同查询之间 RR 的平均值

多级相关

CG（累积增益）

$CG_n$ ：前 n 个文档的相关度得分和

在这里插入图片描述

Discounted Cumulaive Gain

评价web搜索和相关工作的流行方法

两个假设：

相关度高的文档比相关度低的文档更有用
相关文档的位置越靠后，对用户来说越不重要，因为它很少被查看

用户更关注排名高的文档，因此我们将排名考后的文档的贡献减小（discount）

在这里插入图片描述

Normalized Discounted Cumulaive Gain

为了能使不同 $D C G$ 之间能够相互比较，我们应该对 $D C G$ 进行归一化，以消除文档相关度得分不同的影响

首先，得到 $I D C G$ ，就是将返回的文档集按照相关度得分从大到小排序（这是理想情况，得分高的全都在前面，所以 $I$ 代表 ideal）
这样的话，我们用 $D C G$ 除以 $I D C G$ ，就能将 $D C G$ 进行归一化（返回的实际结果有多接近最理想的结果）。 $N D C G$ 可以在不同查询返回的结果之间进行比较