网络信息检索(六)检索评价

一、 为什么要进行检索评价?

  • 有很多信息检索系统/检索模型/检索算法,哪个最好呢?
  • 在一个信息检索系统内,哪部分最好呢?
    排序算法 (dot-product, cosine, …)
    词的选取 (stopword removal, stemming…)
    权重的定义 (TF, TF-IDF,…)
  • 用户如果需要获取找到一些/全部的相关文献,在排序结果集中还要走多远?

评价的重要性

  • 可以测试各种差异和实验效果
    系统工作得怎样?
    系统A比系统B好吗?
    它的结果是真的吗?
    需要什么条件?

  • 评价可以推动研究方向
    确认什么技术可行或不可行


评价检索系统的困难

  • 检索效果是和检索出文献的相关性密切相关的

  • 一般地,相关性不是二值的,而是连续的
     即使相关性是二值的,也很难做出判断

  • 相关性,从人类的观点来看是:
     主观的(Subjective): 依赖于某个特定用户的判断
     情景的(Situational): 跟用户当前的需求密切相关
     认知的(Cognitive): 依赖于人类的认知和行为
     动态的(Dynamic): 随着时间推移而改变


IR的评价指标

  • 效率(Efficiency)—可以采用通常的评价方法
    时间开销
    空间开销
    响应速度

  • 效果(Effectiveness)
    返回的文档中有多少相关文档
    所有相关文档中返回了多少
    返回得靠不靠前

  • 其他指标
    覆盖率(Coverage)
    访问量
    数据更新速度

效率和效果是两个最重要的指标


二、 检索评价指标

基于集合的有效性测度

在这里插入图片描述

查准率与查全率

在这里插入图片描述


查全率和查准率的含义

  • 查准率(Precision):检索出很相关文档的能力(质量上)
    检出的结果集中有多少是相关的?
    检索出最相关文献并排在前列的能力
    对搜索引擎而言,查准率比较重要,因为相关文档太多了。
  • 查全率(Recall):检索出所有相关文档的能力(数量上)
    相关文献集中有多少被被检出?
    • 对法律、专利、医药等专业检索尤其重要
    检索出文献集中所有相关文献的能力
    多检出一些冗余的也没关系,尽量不要漏掉。

查全率和查准率的关系

查准率太高会导致文档数目少,查全率过高有可能会造成大量不相关文献。
在这里插入图片描述


计算实例

recall的分母是全局相关文档的数目,precision的分母是检索出来的文档的数目,
在这里插入图片描述

如何评测结果?插值

可以看到下图,有时候即使你知道recall和precision的值,也很难确定哪个检索结果比较好。我们需要一些连续的曲线来进行分析
在这里插入图片描述


为什么需要插值

在这里插入图片描述
锯齿形的东西很难进行比较,我们需要光滑的曲线。
在这里插入图片描述
以recall为分子,必须保证在每个标准召回率上都有precision的值,使用最大插值的方法,如果recall=0.1,那么它对应的precision的值,等于所有recall大于0.1的点上的precision的值的最大值


插值实例
在这里插入图片描述
通过这样的插值我们就可以把本来的矩形线变得更加光滑,这样的话显然右图的蓝线更强,但是也有一些曲线是交错的。
在这里插入图片描述

需要考虑的几个问题

  • 虽然Precision和Recall都很重要,但是不同的应用、不用的用户可能会对两者的要求不一样
  • 两个指标分别衡量了系统的某个方面,但是为比较带来了难度
  • 两个指标都是基于集合进行计算,并没有考虑序的作用(虽然precision一定程度上表现了序的概念,但是recall是完全没有涉及。)
  • 在网络信息检索时,文档集非常巨大,召回率难以计算。因此需要考虑在无法计算查全率的情况下,如何衡量系统性能的问题(完全是可以用查全率来进行计算的,毕竟我们关注的只是排序在前面的一些结果,并不是所有文档的排序结果。)

其他多种重要指标

单一指标:F指标(F-Measure)

  • 单一测度:同时考虑recall和precision
  • recall和precision 的调和平均/倒数平均 (Harmonic mean)

F = 2 P R P + R = 2 1 / R + 1 / P F=\frac{2PR}{P+R}=\frac{2}{1/R+1/P} F=P+R2PR=1/R+1/P2

在P+R一定的情况下,希望它们接近。换句话说,这个指标不掩盖P, R一个方面特别的不足

E 指标(参数化的 F 值)

F测度的变种,允许用户指出他更关注P还是R

E = ( 1 + β 2 ) P R β 2 P + R = ( 1 + β 2 ) β 2 / R + 1 / P E=\frac{(1+\beta^2)PR}{\beta^2P+R}=\frac{(1+\beta^2)}{\beta^2/R+1/P} E=β2P+R(1+β2)PR=β2/R+1/P(1+β2)

β值控制平衡:
 β = 1: 不偏重某个指标,此时E=F
 β > 1: 侧重 recall
 β < 1: 侧重precision

R- 查准率

在第R位置上的查准率( R-Precision ),是结果集中具有R个文档时的查准率

只考虑前R个位置的查准率,衡量的是我们与完美系统的差距,完美系统应该前R个的查准率为1.(个人理解R值也就是对查询Q的相关文档集的数目)
在这里插入图片描述


R-查准率实例

这里的查询q相关文档有三个(完美索引能检索出三个),因此R=3,只考虑索引系统在前三个文档的查准率。
在这里插入图片描述


平均正确率AP

平均正确率(Average Precision, AP):对不同召回率点上的正确率进行平均。AP的计算又分为以下几种情况:

  • 未插值的AP:直接根据返回结果中的各相关文档的召回率进行平均
  • 插值的AP:在召回率分别为0,0.1,0.2,…,,1.0的十一个点上的正确率求平均,等价于11点平均

MAP (Mean Average Precision )

  • AP是单个查询的平均准确率,是每篇相关文档检索出后的准确率的平均值。
  • 系统的平均准确率(MAP)是每个查询的平均准确率的平均值。
  • MAP(Mean Average Precision ):对所有查询的AP求平均值

MAP样例

在这里插入图片描述


系统的MAP
在这里插入图片描述

其他单一测度

  • Precision@N
    在召回率难以计算的情形下,系统评价可以考虑采用不考虑查全率的指标,例如Precision@N
    Precision@N是指在第N个位置上的正确率(其实就是前N个有几个相关的,求准确率),对于搜索引擎,考虑到大部分作者只关注前一、两页的结果,P@10, P@20对大规模搜索引擎是一个非常有效的衡量指标

  • 平均排序倒数MRR (Mean Reciprocal Rank)
    对于某些IR系统(如问答系统或主页发现系统),只关心第一个标准答案返回的位置,越前越好,这个位置的倒数称为排序倒数RR(Reciprocal Rank)
    对问题集合求平均,则得到平均排序倒数MRR

目前使用很广非常流行的评价因子:

  • 折损累积增益(Discounted Cumulative Gain, DCG):对文档的相关程度其实是一个模糊的概念,大概相关,很相关,一般相关都应该是允许的。
    通过检查文档,用相关度级别( graded relevance )作为有用或增益(gain) 的测度
     DCG 是在某一个特定排序上的总的增益累积:
    D C G p = r e l 1 + ∑ i = 2 p r e l i l o g 2 i DCG_p=rel_1+\sum_{i=2}^p\frac{rel_i}{log_2i} DCGp=rel1+i=2plog2ireli
    r e l i rel_i reli即i的相关度级别。如果p是1号位置,就是用他的相关度级别即可,如果是2号位置,那么是 r e l 1 + r e l 2 / 1 rel_1+rel_2/1 rel1+rel2/1,当位置大于3之后,每个位置都有一个 log ⁡ 2 i \log_2i log2i的discount factor,也就是说位置越靠后,带来的增益越小。

对完美排序计算增益累计,显然是大于所有IR系统的,因此我们使用最哟结果对每个IR系统得到的 D C G DCG DCG值进行归一化,不就可以互相比较了嘛~

归一化DCG(NDCG):通过和完美排序(perfect ranking)结果的比较,对每个排序点的DCG值进行归一化
使得可以对返回相关文档数各不相同的查询进行平均


计算实例

在这里插入图片描述
这样我们就可以看到,我们在第一个点是完美的,后面慢慢就下降了,到后面我们又找到了其它相关文档,因此NDCG有所上升,但是永远不会超过完美排序的值。(完美排序不过是按照相关度从大到小排列仅此而已。)

面向用户的相关测度

在这里插入图片描述


小结
在这里插入图片描述

三、 基准测试集

为什么需要测试基准?

  • 信息检索系统的性能评价受到很多因素影响,很难精确描述
  • 可通过某个测试基准来评价性能,即检索效果可通过某个给定的文献集、查询集和相关判断来评价
  • 性能数据是合法的,仅当系统处于某个评价环境时
  • 避免测试环境不一致带来众说纷

人工标注集

在这里插入图片描述
这是一个必须做的,耗费人力非常大,但是一旦构造成功会使用很久。

基准测试集

在这里插入图片描述

一些小问题

1.检索评估的目的是什么?一般从哪几个方面对IR系统进行评估?
目的主要有三个(1)判断哪个检索模型的效果更好。(2)判断某个检索模型内部的那个部分最好。(3)判断检索模型与最优结果之间的差距。
一般从三个方面对IR系统进行评估,分别是效率,效果,和其他指标,其中效率和效果是最重要的两个指标。


2.如何计算11个标准召回率上的查准率?
使用了最大插值的方法,对某个recall=i的位置,此时precision的值等于,所有查全率大于i的位置的查准率的最大值。


3.一个查询的前10个返回结果“R N R N N N R R N R”,这里的R和 N分别表示相关文档和不相关文档。假设该查询的相关文档数是6,该查询的Precision@8是多少?R-Precision是多少?
Precision@8=0.5 R-Precision=1/3


4.一个查询的前5个返回结果分别是0 1 0 2 0,这里的2、1和0分别表示非常相关文档、相关文档和不相关文档,试计算该查询的NDCG值是多少?
折损增益:0,1,0,1,0
DCG序列:0,1,1,2,2
完美排序:2,1,0,0,0
理想DCG序列:2,3,3,3,3
NDCG值:0,0.33,0.33,0.67,0.67


5.基准测试集的主要组成部分?请说明基准测试的主要流程。
主要组成部分:文献集,查询,相关判断
主要流程:首先我们将标准文献集和标准查询输入待测试的算法,然后得到检索结果,根据标准结果,我们将二者进行比较,然后得到待测试算法取得的查全率和查准率等评价因子。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值