IR的评价指标—MAP,NDCG,MRR

转载 2012年03月27日 12:39:39

转载自:http://www.cnblogs.com/eyeszjwang/articles/2368087.html

MAP(Mean Average Precision):单个主题的平均准确率是每篇相关文档检索出后的准确率的平均值。主集合的平均准确率(MAP)是每个主题的平均准确率的平均值。MAP 是反映系统在全部相关文档上性能的单值指标。系统检索出来的相关文档越靠前(rank 越高),MAP就可能越高。如果系统没有返回相关文档,则准确率默认为0。
例如:假设有两个主题,主题1有4个相关网页,主题2有5个相关网页。某系统对于主题1检索出4个相关网页,其rank分别为1, 2, 4, 7;对于主题2检索出3个相关网页,其rank分别为1,3,5。对于主题1,平均准确率为(1/1+2/2+3/4+4/7)/4=0.83。对于主题2,平均准确率为(1/1+2/3+3/5+0+0)/5=0.45。则MAP= (0.83+0.45)/2=0.64。”

NDCG(Normalized Discounted Cumulative Gain):计算相对复杂。对于排在结位置n处的NDCG的计算公式如下图所示:


在MAP中,四个文档和query要么相关,要么不相关,也就是相关度非0即1。NDCG中改进了下,相关度分成从0到r的r+1的等级(r可设定)。当取r=5时,等级设定如下图所示:


(应该还有r=1那一级,原文档有误,不过这里不影响理解)

例如现在有一个query={abc},返回下图左列的Ranked List(URL),当假设用户的选择与排序结果无关(即每一级都等概率被选中),则生成的累计增益值如下图最右列所示:


考虑到一般情况下用户会优先点选排在前面的搜索结果,所以应该引入一个折算因子(discounting factor): log(2)/log(1+rank)。这时将获得DCG值(Discounted Cumulative Gain)如下如所示:


最后,为了使不同等级上的搜索结果的得分值容易比较,需要将DCG值归一化的到NDCG值。操作如下图所示,首先计算理想返回结果List的DCG值:


然后用DCG/MaxDCG就得到NDCG值,如下图所示:


MRR(Mean Reciprocal Rank):是把标准答案在被评价系统给出结果中的排序取倒数作为它的准确度,再对所有的问题取平均。相对简单,举个例子:有3个query如下图所示:

Query

Results

Correct response

Rank

Reciprocal rank

cat

catten, cati, cats

cats

3

1/3

torus

torii, tori, toruses

tori

2

1/2

virus

viruses, virii, viri

viruses

1

1


(黑体为返回结果中最匹配的一项)

可计算这个系统的MRR值为:(1/3 + 1/2 + 1)/3 = 11/18=0.61。


IR的评价指标-MAP,NDCG和MRR

Map:相关性,1 or 0,计算排序后rank值 NDCG: 设定相关性等级(2^5-1, 2^4-1…) 计算累计增益值(嗯,就累加起来) 计算折算因子log(2)/log(1+rank) (越...
  • lightty
  • lightty
  • 2015年07月27日 06:35
  • 4381

MRR(Mean Reciprocal Rank)简介

MRR概念这是一个常用来衡量搜索算法效果的指标,目前被广泛用在允许返回多个结果的问题,或者目前还比较难以解决的问题中(由于如果只返回top 1的结果,准确率或召回率会很差,所以在技术不成熟的情况下,先...
  • luo123n
  • luo123n
  • 2015年10月03日 19:40
  • 4002

NDCG评价指标讲解

Normalized Discounted Cumulative Gain,即NDCG,常用于作为对rank的评价指标,当我们通过模型得出某些元素的ranking的时候,便可以通过NDCG来测评这个r...
  • u011926899
  • u011926899
  • 2016年09月26日 14:21
  • 3398

信息检索系统常用的评价指标(准确率,召回率,F1,MAP,NDCG)

1. 准确率,召回率,F1值 首先介绍三种最常用的无序的评价指标,它们适用于一种相对简单的情况:在搜索结果中仅考虑返回的文档是否与查询相关,而不考虑这些返回文档在结果列表中的相对位置和顺序。 准确...
  • fengjiancangyue
  • fengjiancangyue
  • 2015年02月11日 23:53
  • 2722

NDCG及其实现

1、NDCG的目标:希望得到的排序列表,质量越高越好。并且,如果将更相关的排到更前面,那么计算得到的NDCG是会越高的。 AUC和NDCG的区别: 1、AUC的含义:把正样本排在负样本前的概率。A...
  • lujiandong1
  • lujiandong1
  • 2017年08月12日 17:22
  • 1164

NDCG 评价标准

评价标准 性能良好的评分模型,应该能够给予那些引起msg或click的候选会员更高的评分(排序靠前),从而推荐给指定会员。本次竞赛的主要排名标准为Normalized Discounted ...
  • a1223031949
  • a1223031949
  • 2016年10月11日 10:34
  • 2285

信息检索(IR)的评价指标介绍 - 准确率、召回率、F1、mAP、ROC、AUC

在信息检索、分类体系中,有一系列的指标,搞清楚这些指标对于评价检索和分类性能非常重要,因此最近根据网友的博客做了一个汇总。准确率、召回率、F1信息检索、分类、识别、翻译等领域两个最基本指标是召回率(R...
  • marising
  • marising
  • 2011年07月06日 22:15
  • 41561

检测率,召回率,mAP,ROC

在信息检索、分类体系中,有一系列的指标,搞清楚这些指标对于评价检索和分类性能非常重要,因此最近根据网友的博客做了一个汇总。 准确率、召回率、F1 信息检索、分类、识别、翻译等领域两个最基本...
  • jasonzzj
  • jasonzzj
  • 2017年03月15日 21:10
  • 1599

图像中的mAP评价指标

作者:水哥 链接:http://www.zhihu.com/question/41540197/answer/91698989 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转...
  • guojingjuan
  • guojingjuan
  • 2016年04月21日 10:00
  • 6168

信息检索的评价指标(Precision, Recall, F-score, MAP)

之前写过一篇blog叫做机器学习实战笔记之非均衡分类问题:http://blog.csdn.net/lu597203933/article/details/38666699其中对Precision和R...
  • Lu597203933
  • Lu597203933
  • 2014年12月08日 12:39
  • 25685
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:IR的评价指标—MAP,NDCG,MRR
举报原因:
原因补充:

(最多只允许输入30个字)