网络信息检索（六）检索评价

最新推荐文章于 2023-09-14 00:45:15 发布

Ordinary_yfz

最新推荐文章于 2023-09-14 00:45:15 发布

阅读量2.3k

点赞数

分类专栏：网络信息检索文章标签：机器学习大数据算法

本文链接：https://blog.csdn.net/csyifanZhang/article/details/105386913

版权

网络信息检索专栏收录该内容

16 篇文章 12 订阅

订阅专栏

一、为什么要进行检索评价？

有很多信息检索系统/检索模型/检索算法，哪个最好呢？
在一个信息检索系统内，哪部分最好呢？
排序算法（dot-product, cosine, …）
词的选取（stopword removal, stemming…）
权重的定义（TF, TF-IDF,…）
用户如果需要获取找到一些/全部的相关文献，在排序结果集中还要走多远？

评价的重要性

可以测试各种差异和实验效果
系统工作得怎样？
系统A比系统B好吗？
它的结果是真的吗？
需要什么条件？
评价可以推动研究方向
确认什么技术可行或不可行

评价检索系统的困难

检索效果是和检索出文献的相关性密切相关的
一般地，相关性不是二值的，而是连续的
 即使相关性是二值的，也很难做出判断
相关性，从人类的观点来看是：
 主观的（Subjective）: 依赖于某个特定用户的判断
 情景的（Situational）: 跟用户当前的需求密切相关
 认知的（Cognitive）: 依赖于人类的认知和行为
 动态的（Dynamic）: 随着时间推移而改变

IR的评价指标

效率（Efficiency）—可以采用通常的评价方法
时间开销
空间开销
响应速度
效果（Effectiveness）
返回的文档中有多少相关文档
所有相关文档中返回了多少
返回得靠不靠前
其他指标
覆盖率(Coverage)
访问量
数据更新速度

效率和效果是两个最重要的指标

二、检索评价指标

基于集合的有效性测度

在这里插入图片描述

查准率与查全率

在这里插入图片描述

查全率和查准率的含义

查准率（Precision）：检索出很相关文档的能力（质量上）
检出的结果集中有多少是相关的？
检索出最相关文献并排在前列的能力
对搜索引擎而言，查准率比较重要，因为相关文档太多了。
查全率（Recall）：检索出所有相关文档的能力（数量上）
相关文献集中有多少被被检出？
• 对法律、专利、医药等专业检索尤其重要
检索出文献集中所有相关文献的能力
多检出一些冗余的也没关系，尽量不要漏掉。

查全率和查准率的关系

查准率太高会导致文档数目少，查全率过高有可能会造成大量不相关文献。
在这里插入图片描述

计算实例

recall的分母是全局相关文档的数目，precision的分母是检索出来的文档的数目，
在这里插入图片描述

如何评测结果？插值

可以看到下图，有时候即使你知道recall和precision的值，也很难确定哪个检索结果比较好。我们需要一些连续的曲线来进行分析
在这里插入图片描述

为什么需要插值

在这里插入图片描述
锯齿形的东西很难进行比较，我们需要光滑的曲线。

以recall为分子，必须保证在每个标准召回率上都有precision的值，使用最大插值的方法，如果recall=0.1，那么它对应的precision的值，等于所有recall大于0.1的点上的precision的值的最大值。

插值实例
在这里插入图片描述
通过这样的插值我们就可以把本来的矩形线变得更加光滑，这样的话显然右图的蓝线更强，但是也有一些曲线是交错的。

需要考虑的几个问题

虽然Precision和Recall都很重要，但是不同的应用、不用的用户可能会对两者的要求不一样
两个指标分别衡量了系统的某个方面，但是为比较带来了难度
两个指标都是基于集合进行计算，并没有考虑序的作用（虽然precision一定程度上表现了序的概念，但是recall是完全没有涉及。）
在网络信息检索时，文档集非常巨大，召回率难以计算。因此需要考虑在无法计算查全率的情况下，如何衡量系统性能的问题（完全是可以用查全率来进行计算的，毕竟我们关注的只是排序在前面的一些结果，并不是所有文档的排序结果。）

其他多种重要指标

单一指标：F指标（F-Measure）

单一测度：同时考虑recall和precision
recall和precision 的调和平均/倒数平均（Harmonic mean）

$F=\frac{2PR}{P+R}=\frac{2}{1/R+1/P}$

在P+R一定的情况下，希望它们接近。换句话说，这个指标不掩盖P， R一个方面特别的不足

E 指标（参数化的 F 值）

F测度的变种，允许用户指出他更关注P还是R

$E=\frac{(1+\beta^2)PR}{\beta^2P+R}=\frac{(1+\beta^2)}{\beta^2/R+1/P}$

β值控制平衡：
 β = 1: 不偏重某个指标，此时E=F
 β > 1: 侧重 recall
 β < 1: 侧重precision

R- 查准率

在第R位置上的查准率（ R-Precision ），是结果集中具有R个文档时的查准率

只考虑前R个位置的查准率，衡量的是我们与完美系统的差距，完美系统应该前R个的查准率为1.（个人理解R值也就是对查询Q的相关文档集的数目）
在这里插入图片描述

R-查准率实例

这里的查询q相关文档有三个（完美索引能检索出三个），因此R=3，只考虑索引系统在前三个文档的查准率。
在这里插入图片描述

平均正确率AP

平均正确率（Average Precision, AP）：对不同召回率点上的正确率进行平均。AP的计算又分为以下几种情况：

未插值的AP：直接根据返回结果中的各相关文档的召回率进行平均
插值的AP：在召回率分别为0，0.1，0.2，…,，1.0的十一个点上的正确率求平均，等价于11点平均

MAP （Mean Average Precision )

AP是单个查询的平均准确率，是每篇相关文档检索出后的准确率的平均值。
系统的平均准确率（MAP）是每个查询的平均准确率的平均值。
MAP（Mean Average Precision )：对所有查询的AP求平均值

MAP样例

在这里插入图片描述

系统的MAP
在这里插入图片描述

其他单一测度

Precision@N
在召回率难以计算的情形下，系统评价可以考虑采用不考虑查全率的指标，例如Precision@N
Precision@N是指在第N个位置上的正确率（其实就是前N个有几个相关的，求准确率），对于搜索引擎，考虑到大部分作者只关注前一、两页的结果，P@10, P@20对大规模搜索引擎是一个非常有效的衡量指标

平均排序倒数MRR （Mean Reciprocal Rank）
对于某些IR系统（如问答系统或主页发现系统），只关心第一个标准答案返回的位置，越前越好，这个位置的倒数称为排序倒数RR（Reciprocal Rank）
对问题集合求平均，则得到平均排序倒数MRR

目前使用很广非常流行的评价因子：

折损累积增益（Discounted Cumulative Gain, DCG）：对文档的相关程度其实是一个模糊的概念，大概相关，很相关，一般相关都应该是允许的。
通过检查文档，用相关度级别（ graded relevance ）作为有用或增益（gain）的测度
 DCG 是在某一个特定排序上的总的增益累积:
$DCG_p=rel_1+\sum_{i=2}^p\frac{rel_i}{log_2i}$
$rel_i$ 即i的相关度级别。如果p是1号位置，就是用他的相关度级别即可，如果是2号位置，那么是 $rel_1+rel_2/1$ ，当位置大于3之后，每个位置都有一个 $log_2i$ 的discount factor，也就是说位置越靠后，带来的增益越小。

对完美排序计算增益累计，显然是大于所有IR系统的，因此我们使用最哟结果对每个IR系统得到的 $D C G$ 值进行归一化，不就可以互相比较了嘛~

归一化DCG（NDCG）：通过和完美排序（perfect ranking）结果的比较，对每个排序点的DCG值进行归一化
使得可以对返回相关文档数各不相同的查询进行平均

计算实例

在这里插入图片描述
这样我们就可以看到，我们在第一个点是完美的，后面慢慢就下降了，到后面我们又找到了其它相关文档，因此NDCG有所上升，但是永远不会超过完美排序的值。（完美排序不过是按照相关度从大到小排列仅此而已。）

面向用户的相关测度

在这里插入图片描述

小结
在这里插入图片描述

三、基准测试集

为什么需要测试基准？

信息检索系统的性能评价受到很多因素影响，很难精确描述
可通过某个测试基准来评价性能，即检索效果可通过某个给定的文献集、查询集和相关判断来评价
性能数据是合法的，仅当系统处于某个评价环境时
避免测试环境不一致带来众说纷

人工标注集

在这里插入图片描述
这是一个必须做的，耗费人力非常大，但是一旦构造成功会使用很久。

基准测试集

在这里插入图片描述

一些小问题

1.检索评估的目的是什么？一般从哪几个方面对IR系统进行评估？
目的主要有三个（1）判断哪个检索模型的效果更好。（2）判断某个检索模型内部的那个部分最好。（3）判断检索模型与最优结果之间的差距。
一般从三个方面对IR系统进行评估，分别是效率，效果，和其他指标，其中效率和效果是最重要的两个指标。

2.如何计算11个标准召回率上的查准率？
使用了最大插值的方法，对某个recall=i的位置，此时precision的值等于，所有查全率大于i的位置的查准率的最大值。

3.一个查询的前10个返回结果“R N R N N N R R N R”，这里的R和 N分别表示相关文档和不相关文档。假设该查询的相关文档数是6，该查询的Precision@8是多少？R-Precision是多少？
Precision@8=0.5 R-Precision=1/3

4.一个查询的前5个返回结果分别是0 1 0 2 0，这里的2、1和0分别表示非常相关文档、相关文档和不相关文档，试计算该查询的NDCG值是多少？
折损增益：0，1，0，1，0
DCG序列：0，1，1，2，2
完美排序：2，1，0，0，0
理想DCG序列：2，3，3，3，3
NDCG值：0，0.33，0.33，0.67，0.67

5.基准测试集的主要组成部分？请说明基准测试的主要流程。
主要组成部分：文献集，查询，相关判断
主要流程：首先我们将标准文献集和标准查询输入待测试的算法，然后得到检索结果，根据标准结果，我们将二者进行比较，然后得到待测试算法取得的查全率和查准率等评价因子。