【信息检索与数据挖掘期末笔记】(二) IR Evaluation

测试集

想要评价一个信息检索模型,我们需要一个测试集,这个测试集包含三个部分

  • 一个文档集

  • 一组用于测试的信息需求集合(Topics,信息需求可以表示成查询,但查询可能只包含信息需求中的一些词)

  • 一组相关性判定结果(topic,document,label) tuples

    在这里插入图片描述

一般信息检索模型会有很多参数,参数调优要求在训练集上进行,在测试集上测试结果

无序检索结果集合的评价

Precision & Recall

在这里插入图片描述

Accuarcy?

文档集中所有判断正确的文档所占的比例

在这里插入图片描述

没有意义:如果对于一个查询来说,文档集中大部分文档都是不相关的,则检索到的结果对Accuarcy影响不大。什么都不返回,准确率都是 99.99%

在这里插入图片描述

F值

同时采用正确率和召回率两个指标来度量效果的优点:可以满足偏重其中一个指标的场景的需要

F是正确率和召回率的调和平均值 $F = \frac{1}{\alpha{\frac{1}{p}+}(1-\alpha){\frac{1}{R}}} \$。可以写成如下形式,其中 β 2 = 1 − α α \beta^2 = \frac{1-\alpha}{\alpha} β2=α1α β > 1 \beta>1 β>1表示强调召回率, β < 1 \beta<1 β<1 表示强调正确率

在这里插入图片描述

  • β \beta β 很大,比如 β = 100 \beta = 100 β=100 ,那么 $F_{100} = \frac{10001PR}{10000P+R}\$,因为 10000 P 10000P 10000P R R R 大很多,因此原式近似于 F 100 = 10001 P R 10000 P = R F_{100} = \frac{10001PR}{10000P} = R F100=10000P10001PR=R,所以更注重召回率
  • 反之,更注重正确率

为什么不是几何平均值?:若返回所有文档,则得到 100% 召回率,平均值最小为 50%,不合理

正确率和召回率等权重的 F F F 形式。惩罚 P , R P,R P,R 之间出现小的值

在这里插入图片描述

有序检索结果评价方法

二值相关(相关/不相关)

Precision@K(P@K)

前 K 个返回结果的 Precision(相关文档的比例)

在这里插入图片描述

Mean Average Precision(MAP)

具有好的区别性和稳定性,但是对 Web 搜索来说,用处不大

实际上是在所有的召回率水平上计算正确率

AP:对于一个查询的返回结果中,P@K的平均值

在这里插入图片描述

在这里插入图片描述

MAP:不同查询之间 AP 的平均值

在这里插入图片描述

  • 单个系统在不同信息需求上的MAP往往比较大
  • 同一个信息需求在不同系统中的MAP相对小一些
  • 因此测试的信息需求必须足够大,需求之间的差异也要足够大,这样系统在不同查询上体现出的效果才最有代表性

Mean Reciprocal Rank

K K K 是第一个相关文档出现的位置,$RR = \frac{1}{K} \$

MRR 就是不同查询之间 RR 的平均值

多级相关

CG(累积增益)

C G n CG_n CGn :前 n 个文档的相关度得分和

在这里插入图片描述

Discounted Cumulaive Gain

评价web搜索和相关工作的流行方法

两个假设:

  • 相关度高的文档比相关度低的文档更有用
  • 相关文档的位置越靠后,对用户来说越不重要,因为它很少被查看

用户更关注排名高的文档,因此我们将排名考后的文档的贡献减小(discount)

在这里插入图片描述

Normalized Discounted Cumulaive Gain

为了能使不同 D C G DCG DCG 之间能够相互比较,我们应该对 D C G DCG DCG 进行归一化,以消除文档相关度得分不同的影响

  • 首先,得到 I D C G IDCG IDCG ,就是将返回的文档集按照相关度得分从大到小排序(这是理想情况,得分高的全都在前面,所以 I I I 代表 ideal

    在这里插入图片描述

  • 这样的话,我们用 D C G DCG DCG 除以 I D C G IDCG IDCG,就能将 D C G DCG DCG 进行归一化(返回的实际结果有多接近最理想的结果)。 N D C G NDCG NDCG 可以在不同查询返回的结果之间进行比较

    在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

长命百岁️

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值