信息检索中的evaluation

在信息检索中, 我们通常需要对查询的结果进行评价, 以此来衡量一个信息检索系统的好坏。以下列出常用的指标, 并且给出python的实现
摘要由CSDN通过智能技术生成

在信息检索中, 我们通常需要对查询的结果进行评价, 以此来衡量一个信息检索系统的好坏。以下列出常用的指标, 并且给出python的实现(参考[1])。

Precision and Recall

在一个信息检索系统中, 最基本的指标就是precision和recall, precision衡量了检索到的文章的相关度, recall衡量了相关的文章被检索到的程度, 若用公式来表达,就是

PrecisionRecall=P(revelent|retrieved)=P(retrieved|relevant)

其中, P() $指概率
通常来说, 普通的用户希望第一页检索到的文章是相关的,即precision是高的, 而对于一些研究人员或者分析师来说, 他们希望有更多的相关文档被检索到, 即使有一些错误的结果, 他们也不介意, 即recall是高的。precision与recall之间存在一种trade off 的关系, 即precision高, 则recall低, vice versa。

Mean Reciprocal Rank(MRR)

这个指标在Question Answering(QA)领域比较常用, 在IR中并不常用(至少在目前看过的论文中是这样的)。简而言之,就是对一个查询query, 产生了一个result list,我们记录第一个relevant文档出现的位置, 然后取倒数, 这样就得到了Reciprocal Rank, 对多个query取平均就是MRR了, 如下公式表示[2]

MRR=1|Q|i=1Q1ranki

import numpy as np

def meanReciprocalRank(rs):
  ''' Calculate Mean Reciprocal Rank

      Args:
          rs: ranking scores, 2-dimension np.array

      return:
          mrr: Mean Reciprocal Rank
  '''
 
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值