信息检索中常用的评价指标：MAP,nDCG,ERR,F-measure

最新推荐文章于 2024-04-12 09:10:40 发布

J-Ombudsman

最新推荐文章于 2024-04-12 09:10:40 发布

阅读量1.7w

点赞数 17

分类专栏：机器学习文章标签：信息检索评价指标

本文链接：https://blog.csdn.net/u010138758/article/details/69936041/

版权

机器学习专栏收录该内容

11 篇文章 1 订阅

订阅专栏

知识点文本检索常用的评价指标：MAP、nDCG、ERR、F-score/F-measure以及附加的Precision、Recall、AveP、CG、DCG、IDCG、MRR、cascade models

而ROC曲线及其度量指标AUC主要用于分类和识别

一，MAP

Precision(P)：

准确率(精确度)是指检索得到的文档中相关文档所占的比例，公式如下：

p r e c i s i o n = | { r e l e v a n t d o c u m e n t s } \cap { r e t r i e v e d d o c u m e n t s } | | { r e t r i e v e d d o c u m e n t s } |

$precision=\frac{|\{relevant\ documents\} \cap \{retrieved\ documents\}|}{|\{retrieved\ documents\}|}$
precision@10表示检索10个文档中包含相关所占的比例，即：|{retrieved documents}| = 10。

Recall(R)：

召回率是指所有相关文档中被检索到的比例，公式如下：

r e c a l l = | { r e l e v a n t d o c u m e n t s } \cap { r e t r i e v e d d o c u m e n t s } | | { r e l e v a n t d o c u m e n t s } |

$recall=\frac{|\{relevant\ documents\} \cap\{retrieved\ documents\}|}{|\{relevant\ documents\}|}$

Average precision(AveP)：

由前面可知，准确率和召回率都只能衡量检索性能的一个方面，最理想的情况肯定是准确率和召回率都比较高。当我们想提高召回率的时候，肯定会影响准确率，所以可以把准确率看做是召回率的函数，即： $P=f(R)$ ，也就是随着召回率从0到1，准确率的变化情况。那么就可以对函数 $P=f(R)$ 在 $R$ 上进行积分，可以求 $P$ 的期望均值。公式如下：

A v e P = \int 10 P (r) d r = \sum k = 1 n P (k) Δ (k) = \sum n k = 1 ( P ( k ) \times r e l ( k ) ) n u m b e r o f r e l e v a n t d o c u m e n t s

$AveP=\int_0^1 P(r)dr =\sum_{k=1}^n P(k) \Delta(k) =\frac{\sum_{k=1}^n (P(k)\times rel(k))}{number\ of\ relevant\ documents}$

其中 $rel(k)$ 表示第k个文档是否相关，若相关则为1，否则为0， $P(k)$ 表示前k个文档的准确率。 $AveP$ 的计算方式可以简单的认为是：

A v e P = 1 R \times \sum r = 1 R r p o s i t i o n ( r )

$AveP =\frac{1}{R}\times\sum_{r=1}^R \frac{r}{position(r)}$
其中

R $R$ 表示相关文档的总个数，

position(r) $position(r)$ 表示，结果列表从前往后看，第

r $r$ 个相关文档在列表中的位置。比如，有三个相关文档，位置分别为1、3、6，那么

AveP=13×(11+23+36) $AveP=\frac{1}{3}\times (\frac{1}{1}+\frac{2}{3}+\frac{3}{6})$ 。在编程的时候需要注意，位置和第i个相关文档，都是从1开始的，不是从0开始的。

AveP意义是在召回率从0到1逐步提高的同时，对每个R位置上的P进行相加，也即要保证准确率比较高，才能使最后的AveP比较大。

Mean average precision(MAP)：

通常会用多个查询语句来衡量检索系统的性能，所以应该对多个查询语句的AveP求均值(the mean of average precision scores)，即公式：

M A P = \sum Q q = 1 A v e P ( q ) Q

$MAP=\frac{\sum_{q=1}^Q AveP(q)}{Q}$

二，nDCG

在MAP计算公式中，文档只有相关不相关两种，而在nDCG中，文档的相关度可以分多个等级进行打分。

Cumulative Gain(CG)：

表示前p个位置累计得到的效益，公式如下：

C G p = \sum i = 1 p r e l i

$CG_p=\sum_{i=1}^p rel_i$
其中

reli $rel_i$ 表示第i个文档的相关度等级，如：2表示非常相关，1表示相关，0表示无关，-1表示垃圾文件。

Discounted cumulative gain(DCG)：

由于在 $CG_p$ 的计算中对位置信息不敏感，比如检索到了三个文档相关度依次是{3,-1,1}和{-1,1,3}，显然前面的排序更优，但是它们的CG相同，所以要引入对位置信息的度量计算，既要考虑文档的相关度等级，也要考虑它所在的位置信息。假设每个位置按照从小到大的排序，它们的价值依次递减，如：可以假设第i个位置的价值是 $\frac{1}{log_2(i+1)}$ ，那么排在第i个位置的文档所产生的效益就是 $rel_i \times\frac{1}{log_2 (i+1)}=\frac{rel_i}{log_2 (i+1)}$ 。公式如下：

D C G p = \sum i = 1 p r e l i l o g 2 ( i + 1 ) = r e l 1 + \sum i = 2 p r e l i l o g 2 ( i + 1 )

$DCG_p =\sum_{i=1}^p \frac{rel_i}{log_2 (i+1)}=rel_1 +\sum_{i=2}^p \frac{rel_i}{log_2 (i+1)}$
另一种比较常用的，用来增加相关度影响比重的DCG计算方式是：

D C G p = \sum i = 1 p 2 r e l i - 1 l o g 2 ( i + 1 )

$DCG_p =\sum_{i=1}^p \frac{2^{rel_i} -1}{log_2 (i+1)}$

Ideal DCG(IDCG)：

IDCG是理想情况下的DCG，即对于一个查询语句和p来说，DCG的最大值。公式如下：

I D C G p = \sum i = 1 | R E L | 2 r e l i - 1 l o g 2 ( i + 1 )

$IDCG_p =\sum_{i=1}^{|REL|} \frac{2^{rel_i} -1}{log_2 (i+1)}$
其中

|REL| $|REL|$ 表示，文档按照相关性从大到小的顺序排序，取前p个文档组成的集合。也就是按照最优的方式对文档进行排序。

Normalize DCG(nDCG)：

由于每个查询语句所能检索到的结果文档集合长度不一，p值的不同会对DCG的计算有较大的影响。所以不能对不同查询语句的DCG进行求平均，需要进行归一化处理。nDCG就是用IDCG进行归一化处理，表示当前DCG比IDCG还差多大的距离。公式如下：

n D C G p = D C G p I D C G p

$nDCG_p = \frac{DCG_p}{IDCG_p}$
这样每个查询语句的

nDCGp $nDCG_p$ 就是从0到1，不同查询语句之间就可以做比较，就可以求多个查询语句的平均

nDCGp $nDCG_p$ 。
NDCG@10、NDCG@20分别表示求p为10和20的时候的nDCG。

三，ERR

Mean reciprocal rank (MRR) ：

reciprocal rank是指，第一个正确答案的排名的倒数。MRR是指多个查询语句的排名倒数的均值。公式如下：

M R R = 1 | Q | \sum i = 1 | Q | 1 r a n k i

$MRR = \frac{1}{|Q|} \sum_{i=1}^{|Q|}\frac{1}{rank_i}$
其中

ranki $rank_i$ 表示第i个查询语句的第一个正确答案的排名。

Cascade Models ：

之前的评分模型虽然考虑了位置自身的价值信息和位置上文档的相关度信息，但是没有考虑文档之间的相关性信息。一种考虑是，一个文档是否被用户点击和排在它前面的文档有很大的关系，比如排在前面的文档都是不相关文档，那么它被点击的概率就高，如果排它前面的文档都是非常相关的文档，那么它被点击的概率就很低。Cascade Models假设用户从排名由高到底依次查看文档，一旦文档满足了用户的需求，则停止查看后续的文档。用 $R_i$ 表示用户只看在位置 $i$ 上的文档后就不在需要查看其它文档的概率，显然文档的相关度越高， $R_i$ 越大。那么用户在位置 $i$ 停止的概率公式如下：

P P r = \prod i = 1 r - 1 (1 - R i) R r

$PP_r=\prod_{i=1}^{r-1}(1-R_i)R_r$

Expected reciprocal rank (ERR) ：

区别RR是计算第一个相关文档的位置的倒数，ERR表示用户的需求被满足时停止的位置的倒数的期望。首先是计算用户在位置 $r$ 停止的概率 $PP_r$ ，如下所示：

P P r = \prod i = 1 r - 1 (1 - R i) R r

$PP_r=\prod_{i=1}^{r-1}(1-R_i)R_r$
其中

Ri $R_i$ 是关于文档相关度等级的函数，可以选取如下的函数：

R i = R (g i) = 2 g - 1 2 g m a x, g \in {0, 1, \dots \dots, g m a x}

$R_i=R( g_i )=\frac{2^g - 1}{2^{g_{max}}}, g\in\{0,1,\ldots \cdots,g_{max}\}$
那么ERR的计算公式如下：

E R R = \sum r = 1 n φ (r) P P r = \sum r = 1 n 1 r P P r = \sum r = 1 n 1 r \prod i = 1 r - 1 (1 - R i) R r

$ERR =\sum_{r=1}^n\varphi(r) PP_r= \sum_{r=1}^n \frac{1}{r} PP_r =\sum_{r=1}^n \frac{1}{r} \prod_{i=1}^{r-1}(1-R_i )R_r$
更通用一点，ERR不一定计算用户需求满足时停止的位置的倒数的期望，可以是其它基于位置的函数

φ(r) $\varphi(r)$ ，只要满足

φ(0)=1 $\varphi(0)=1$ ，且

φ(r)→0 $\varphi(r)\rightarrow 0$ 随着

r→∞ $r\rightarrow \infty$ 。比如DCG中的

φ(r)=1log2(r+1) $\varphi(r)=\frac{1}{log_2 (r+1)}$ 。

四，F-score/F-measure

F-score/F-measure ：

一种同时考虑准确率和召回率的指标。公式如下：

F = 2 \times p r e c i s i o n \times r e c a l l ( p r e c i s i o n + r e c a l l )

$F = \frac{2 \times precision \times recall}{(precision+recall)}$
可以看出F的取值范围从0到1。另外还有一种F的变体如下所示：

F β = ( 1 + β 2 ) \times ( p r e c i s i o n \times r e c a l l ) ( β 2 \times p r e c i s i o n + r e c a l l )

$F_\beta = \frac{(1+\beta^2 ) \times (precision \times recall)}{(\beta^2 \times precision+recall)}$
常用的两种设置是

F2 $F_2$ 和

F0.5 $F_{0.5}$ ，前者中recall重要程度是precision的两倍，后者则相反，precision重要程度是recall的两倍。

J-Ombudsman

关注

17
点赞
踩
25

收藏

觉得还不错? 一键收藏
5
评论
信息检索中常用的评价指标：MAP,nDCG,ERR,F-measure

知识点文本检索常用的评价指标：MAP、nDCG、ERR、F-score/F-measure以及附加的Precision、Recall、AveP、CG、DCG、IDCG、MRR、cascade models一，MAPPrecision(P)：准确率(精确度)是指检索得到的文档中相关文档所占的比例，公式如下： precision=|{relevantdocuments}⊆{ret
复制链接

扫一扫