Precision@K Recall@K MRR（平均倒数排名） nDCG（归一化折损累计增益）四个指标

最新推荐文章于 2025-05-01 23:36:42 发布

背太阳的牧羊人

最新推荐文章于 2025-05-01 23:36:42 发布

阅读量788

点赞数 28

分类专栏：人工智能 python 文章标签： python 人工智能

本文链接：https://blog.csdn.net/u013565133/article/details/147629088

版权

134 篇文章

订阅专栏

11 篇文章

订阅专栏

这四个指标都是衡量“信息检索系统好不好”的关键评估方式，尤其在 Dense Retriever 这种语义检索里常用。

定义：在检索返回的前 K 个结果中，有多少是相关的？

用户问题：“孕妇可以吃头孢吗？”
我们返回前 5 个结果（K=5）：

有 3 个是对的。

✅ Precision@5 = 3 / 5 = 0.6

定义：在所有应该被找出来的相关文档中，我们成功找到了多少个？

真实相关文档总共有 4 个：doc1、doc3、doc4、doc6
我们只在前 5 个返回结果里找到了 3 个（doc1, doc3, doc4）

✅ Recall@5 = 3 / 4 = 0.75

Precision 看“找出来的对几个”，Recall 看“对的找到了几个”。

定义：每个查询的“第一个相关结果”排在第几位？越靠前越好，然后取倒数平均。

我们有两个用户查询：

MRR = (1/2 + 1/1) / 2 = 0.75

✅ MRR 越高表示模型越擅长把“最相关的”放在最前面。

定义：考虑排序越靠前越重要。越早看到相关文档越好。

我们返回了前 3 个结果：

我们先计算 DCG（折损累计增益）：

DCG = 3 / log2(1+1) + 0 + 2 / log2(3+1)
    = 3 / 1 + 2 / 2 = 3 + 1 = 4

再计算理想的 DCG（把最相关排在最前面）：

IDCG = 3 / log2(1+1) + 2 / log2(2+1)
     = 3 + 2 / 1.5849 ≈ 3 + 1.26 ≈ 4.26

最后：

nDCG@3 = DCG / IDCG ≈ 4 / 4.26 ≈ 0.939

✅ nDCG 越接近 1，表示模型排序越理想。