信息检索中常用的评价指标:MAP,nDCG,ERR,F-measure

知识点文本检索常用的评价指标:MAP、nDCG、ERR、F-score/F-measure以及附加的Precision、Recall、AveP、CG、DCG、IDCG、MRR、cascade models

而ROC曲线及其度量指标AUC主要用于分类和识别

一,MAP


Precision(P):

准确率(精确度)是指检索得到的文档中相关文档所占的比例,公式如下:

precision=|{relevant documents}{retrieved documents}||{retrieved documents}|

precision@10表示检索10个文档中包含相关所占的比例,即:|{retrieved documents}| = 10。

Recall(R):

召回率是指所有相关文档中被检索到的比例,公式如下:

recall=|{relevant documents}{retrieved documents}||{relevant documents}|

Average precision(AveP):

由前面可知,准确率和召回率都只能衡量检索性能的一个方面,最理想的情况肯定是准确率和召回率都比较高。当我们想提高召回率的时候,肯定会影响准确率,所以可以把准确率看做是召回率的函数,即: P=f(R) ,也就是随着召回率从0到1,准确率的变化情况。那么就可以对函数 P=f(R) R 上进行积分,可以求P的期望均值。公式如下:

AveP=10P(r)dr=k=1nP(k)Δ(k)=nk=1(P(k)×rel(k))number of relevant documents

其中 rel(k) 表示第k个文档是否相关,若相关则为1,否则为0, P(k) 表示前k个文档的准确率。 AveP 的计算方式可以简单的认为是:

AveP=1R×r=1Rrposition(r)

其中 R 表示相关文档的总个数,position(r)表示,结果列表从前往后看,第 r 个相关文档在列表中的位置。比如,有三个相关文档,位置分别为1、3、6,那么AveP=13×(11+23+36)。在编程的时候需要注意,位置和第i个相关文档,都是从1开始的,不是从0开始的。

AveP意义是在召回率从0到1逐步提高的同时,对每个R位置上的P进行相加,也即要保证准确率比较高,才能使最后的AveP比较大。

Mean average precision(MAP):

通常会用多个查询语句来衡量检索系统的性能,所以应该对多个查询语句的AveP求均值(the mean of average precision scores),即公式:

MAP=Qq=1AveP(q)Q

二,nDCG


在MAP计算公式中,文档只有相关不相关两种,而在nDCG中,文档的相关度可以分多个等级进行打分。

Cumulative Gain(CG):

表示前p个位置累计得到的效益,公式如下:

CGp=i=1preli

其中 reli 表示第i个文档的相关度等级,如:2表示非常相关,1表示相关,0表示无关,-1表示垃圾文件。

Discounted cumulative gain(DCG):

由于在 CGp 的计算中对位置信息不敏感,比如检索到了三个文档相关度依次是{3,-1,1}和{-1,1,3},显然前面的排序更优,但是它们的CG相同,所以要引入对位置信息的度量计算,既要考虑文档的相关度等级,也要考虑它所在的位置信息。假设每个位置按照从小到大的排序,它们的价值依次递减,如:可以假设第i个位置的价值是 1log2(i+1) ,那么排在第i个位置的文档所产生的效益就是 reli×1log2(i+1)=relilog2(i+1) 。公式如下:

DCGp=i=1prelilog2(i+1)=rel1+i=2prelilog2(i+1)

另一种比较常用的,用来增加相关度影响比重的DCG计算方式是:
DCGp=i=1p2reli1log2(i+1)

Ideal DCG(IDCG):

IDCG是理想情况下的DCG,即对于一个查询语句和p来说,DCG的最大值。公式如下:

IDCGp=i=1|REL|2reli1log2(i+1)

其中 |REL| 表示,文档按照相关性从大到小的顺序排序,取前p个文档组成的集合。也就是按照最优的方式对文档进行排序。

Normalize DCG(nDCG):

由于每个查询语句所能检索到的结果文档集合长度不一,p值的不同会对DCG的计算有较大的影响。所以不能对不同查询语句的DCG进行求平均,需要进行归一化处理。nDCG就是用IDCG进行归一化处理,表示当前DCG比IDCG还差多大的距离。公式如下:

nDCGp=DCGpIDCGp

这样每个查询语句的 nDCGp 就是从0到1,不同查询语句之间就可以做比较,就可以求多个查询语句的平均 nDCGp
NDCG@10、NDCG@20分别表示求p为10和20的时候的nDCG。

三,ERR


Mean reciprocal rank (MRR) :

reciprocal rank是指,第一个正确答案的排名的倒数。MRR是指多个查询语句的排名倒数的均值。公式如下:

MRR=1|Q|i=1|Q|1ranki

其中 ranki 表示第i个查询语句的第一个正确答案的排名。

Cascade Models :

之前的评分模型虽然考虑了位置自身的价值信息和位置上文档的相关度信息,但是没有考虑文档之间的相关性信息。一种考虑是,一个文档是否被用户点击和排在它前面的文档有很大的关系,比如排在前面的文档都是不相关文档,那么它被点击的概率就高,如果排它前面的文档都是非常相关的文档,那么它被点击的概率就很低。Cascade Models假设用户从排名由高到底依次查看文档,一旦文档满足了用户的需求,则停止查看后续的文档。用 Ri 表示用户只看在位置 i 上的文档后就不在需要查看其它文档的概率,显然文档的相关度越高,Ri越大。那么用户在位置 i 停止的概率公式如下:

PPr=i=1r1(1Ri)Rr

Expected reciprocal rank (ERR) :

区别RR是计算第一个相关文档的位置的倒数,ERR表示用户的需求被满足时停止的位置的倒数的期望。首先是计算用户在位置 r 停止的概率PPr,如下所示:

PPr=i=1r1(1Ri)Rr

其中 Ri 是关于文档相关度等级的函数,可以选取如下的函数:
Ri=R(gi)=2g12gmax,g{0,1,,gmax}

那么ERR的计算公式如下:
ERR=r=1nφ(r)PPr=r=1n1rPPr=r=1n1ri=1r1(1Ri)Rr

更通用一点,ERR不一定计算用户需求满足时停止的位置的倒数的期望,可以是其它基于位置的函数 φ(r) ,只要满足 φ(0)=1 ,且 φ(r)0 随着 r 。比如DCG中的 φ(r)=1log2(r+1)

四,F-score/F-measure


F-score/F-measure :

一种同时考虑准确率和召回率的指标。公式如下:

F=2×precision×recall(precision+recall)

可以看出F的取值范围从0到1。另外还有一种F的变体如下所示:
Fβ=(1+β2)×(precision×recall)(β2×precision+recall)

常用的两种设置是 F2 F0.5 ,前者中recall重要程度是precision的两倍,后者则相反,precision重要程度是recall的两倍。

  • 17
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
以下是对评价指标NDCG、AUC、ACC、Precision和Recall的简要介绍: 1. NDCG (Normalized Discounted Cumulative Gain):NDCG是用于衡量排序算法性能的指标,常用于评估推荐系统的排序质量。它考虑了推荐列表每个项目的相关性和排序位置,通过对相关性进行折扣和累加来计算得分,然后将得分标准化,使得评估结果在0到1之间,越接近1表示排序质量越好。 2. AUC (Area Under the ROC Curve):AUC是用于衡量分类算法性能的指标,常用于评估二分类问题的预测准确性。ROC曲线是以真正例率(True Positive Rate)为纵轴,假正例率(False Positive Rate)为横轴绘制的曲线,AUC则是ROC曲线下的面积。AUC越接近1表示分类器性能越好。 3. ACC (Accuracy):ACC是用于衡量分类算法性能的指标,表示分类器正确预测的样本占总样本数的比例。ACC通常用于评估多分类问题分类器的准确性,取值范围为0到1,越接近1表示分类器性能越好。 4. Precision (精确率):Precision是用于衡量分类算法性能的指标,表示分类器在预测为正例的样本,真正例的比例。精确率主要关注分类器的预测准确性,计算公式为真正例数除以真正例数加上假正例数。 5. Recall (召回率):Recall是用于衡量分类算法性能的指标,表示分类器成功预测为正例的样本占所有真正例的比例。召回率主要关注分类器对正例的全面性,计算公式为真正例数除以真正例数加上假负例数。 这些评价指标在不同的任务和场景有不同的应用,可以帮助评估模型的性能和效果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值