信息检索系统常用的评价指标(准确率,召回率,F1,MAP,NDCG)

1. 准确率,召回率,F1值

首先介绍三种最常用的无序的评价指标,它们适用于一种相对简单的情况:在搜索结果中仅考虑返回的文档是否与查询相关,而不考虑这些返回文档在结果列表中的相对位置和顺序。


准确率(Precision)是返回的结果中相关文档所占的比例

召回率(Recall)是返回的相关文档占所有相关文档的比例

具体可以根据混淆矩阵来理解


 相关不相关
返回真正例(tp)伪正例(fp)
未返回伪反例(fn)真反例(tn)


已知上述矩阵,那么准确率和召回率可以按如下方法计算:





举个例子,假设针对某个查询词,某搜索引擎返回10个结果,其中有5个是相关的,那么准确率就等于5/10 = 50%, 如果索引中与该查询词相关的文档共有8个(也就是说还有3个没有返回),那么召回率就等于5/8 = 67.5%.


通常而言,一个好的搜索引擎需要兼顾准确率(P)和召回率(R),因此有了结合两者的指标—— F值,它是准确率和召回率的调和平均值,定义如下:



其中, 表示强调正确率,而表示强调召回率。当时,表示准确率和召回率的权重相等,通常记为,此时F值的计算公式可以简化为



这里为什么使用调和平均而不是算术平均来计算F值呢?考虑极端的情况,如果搜索结果返回所有的文档,那么此时召回率就是100%,这时的F值至少为50%,这显然是不合理的。而调和平均值小于等于算术平均值和几何平均值,如果两个求平均的数之间差距比较大,那么调和平均值更接近其中较小的值。


2. MAP

准确率,召回率和F值都是利用无序的文当集合进行计算,而搜索引擎返回的结果通常是有序的,因此有必要对这些指标进行扩展以考虑位置信息。

MAP(Mean Average Precision)是近年来比较流行的评价指标, MAP在准确率的基础上考虑了位置的因素。

首先对于单个查询,其平均准确率的具体计算方法如下:


其中r是相关文档的总数,Q是查询总数。

查询集合的平均准确率由所有单个查询的MAP值的平均。

总的来说,系统检索出来的相关文档在列表中越靠前,MAP的值就越高。如果系统没有返回相关文档,则MAP=0.


3.NDCG

NDCG(normalized discounted cumulative gain,归一化折损累计增益)是一种近年来逐渐被采用的指标,尤其是在基于机器学习的排序方法中。NDCG是针对连续值的指标,它基于前k个检索结果进行计算。设R(j,d)是评价人员给出的文档d对查询j的相关性得分(通常是一个概率),那么有:




其中,用于保证对于查询j最完美系统的NDCG在k的位置得分是1,m是返回文档的位置。

如果某查询返回的文档数,那么上述公式只需要计算到k‘为止。


  • 7
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
以下是对评价指标NDCG、AUC、ACC、Precision和Recall的简要介绍: 1. NDCG (Normalized Discounted Cumulative Gain):NDCG是用于衡量排序算法性能的指标,常用于评估推荐系统的排序质量。它考虑了推荐列表中每个项目的相关性和排序位置,通过对相关性进行折扣和累加来计算得分,然后将得分标准化,使得评估结果在0到1之间,越接近1表示排序质量越好。 2. AUC (Area Under the ROC Curve):AUC是用于衡量分类算法性能的指标,常用于评估二分类问题的预测准确性。ROC曲线是以真正例率(True Positive Rate)为纵轴,假正例率(False Positive Rate)为横轴绘制的曲线,AUC则是ROC曲线下的面积。AUC越接近1表示分类器性能越好。 3. ACC (Accuracy):ACC是用于衡量分类算法性能的指标,表示分类器正确预测的样本占总样本数的比例。ACC通常用于评估多分类问题中分类器的准确性,取范围为0到1,越接近1表示分类器性能越好。 4. Precision (精确率):Precision是用于衡量分类算法性能的指标,表示分类器在预测为正例的样本中,真正例的比例。精确率主要关注分类器的预测准确性,计算公式为真正例数除以真正例数加上假正例数。 5. Recall (召回率):Recall是用于衡量分类算法性能的指标,表示分类器成功预测为正例的样本占所有真正例的比例。召回率主要关注分类器对正例的全面性,计算公式为真正例数除以真正例数加上假负例数。 这些评价指标在不同的任务和场景中有不同的应用,可以帮助评估模型的性能和效果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值