信息检索评价指标NDCG、a-NDCG

最新推荐文章于 2025-04-01 09:42:55 发布

YY.Jiang

最新推荐文章于 2025-04-01 09:42:55 发布

阅读量1.6w

点赞数 3

分类专栏： IR

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jiangyongy/article/details/78698096

版权

IR 专栏收录该内容

3 篇文章

订阅专栏

PAMM中使用的检索多样性的评估方法为：。

在NDCG中，文档的相关度可以分为多个等级进行打分。

（1）CG（Cumulative Gain）：

表示前p个位置累计得到的效益，公式为：

其中rel表示第i个文档的相关等级，如2表示非常相关，1表示相关，0表示无关，-1表示垃圾文件。

（2）DCG（Discounted Cumulative gain）

在CG中的计算没有考虑到位置信息，比如检索到了三个文档相关度一次为（3,-1,1）和（-1,1,3），显然前面的排序好一点，但是两个排名的CG值是相同的，所以要在CG运算中中加入位置信息的计算。假设每个位置按照从小到大排序，它们的价值依次递减，如：假设第i个位置的价值为。

DCG的公式为：

另一种比较常用的，用来增加相关度影响比重的DCG计算方式是：

（3）IDCG（ideal DCG）

IDCG是指理想情况下的DCG，即DCG取得最大值的情况。公式为：

其中|REL|表示文档按照相关性从大到小的顺序排序，取前p个文档组成的集合。

（4）NDCG（Normalize DCG）

由于每个查询语句所能检索到的结果文档集合长度不一，p值的不同会对DCG的计算有较大的影响。所以不能对不同查询语句的DCG进行求平均，需要进行归一化处理。NDCG就是用IDCG进行归一化处理，表示当前DCG比IDCG还差多大的距离。公式如下：

这样每个查询语句的NDCG就是从0到1，不同查询语句之间就可以做比较，就可以求多个查询语句的平均NDCG。NDCG@10、NDCG@20分别表示求p为10和20的时候的NDCG。

（5）PAMM中的

是NDCG的变形，其中新发现的subtopics被奖励，多余的subtopics被惩罚。等级k的得分可以通过将标准NDCG@k中的原始增益值替换为新颖性收益来定义。公式为：

其中是排名列表y中排在r位置的新颖性收益；

是包含第s个subtopic的r-1排名内观察到的文档数目；

为在正排名中排在r位的新颖性收益；

y(k)是排名为k的文档索引;

参数通常设置为0.5 。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。