搜索评价指标——NDCG

最新推荐文章于 2023-07-26 23:30:00 发布

楓尘林间

最新推荐文章于 2023-07-26 23:30:00 发布

阅读量4.7k

点赞数 6

分类专栏：机器学习文章标签： java scala spark

原文链接：https://www.cnblogs.com/by-dream/p/9403984.html

版权

机器学习同时被 2 个专栏收录

10 篇文章 3 订阅

订阅专栏

推荐算法学习

2 篇文章 0 订阅

订阅专栏

转载自：胖喵~的博客

概念

NDCG，Normalized Discounted cumulative gain 直接翻译为归一化折损累计增益，可能有些晦涩，没关系下面重点来解释一下这个评价指标。这个指标通常是用来衡量和评价搜索结果算法（注意这里维基百科中提到了还有推荐算法，但是我个人觉得不太适合推荐算法，后面我会给我出我的解释）。DCG的两个思想：

1、高关联度的结果比一般关联度的结果更影响最终的指标得分；
2、有高关联度的结果出现在更靠前的位置的时候，指标会越高；

累计增益（CG）

CG，cumulative gain，是DCG的前身，只考虑到了相关性的关联程度，没有考虑到位置的因素。它是一个搜素结果相关性分数的总和。指定位置p上的CG为：
　　在这里插入图片描述
$rel_i$ 代表i这个位置上的相关度。

举例：假设搜索“篮球”结果，最理想的结果是：B1、B2、 B3。而出现的结果是 B3、B1、B2的话，CG的值是没有变化的，因此需要下面的DCG。

折损累计增益（DCG）

DCG， Discounted 的CG，就是在每一个CG的结果上处以一个折损值，为什么要这么做呢？目的就是为了让排名越靠前的结果越能影响最后的结果。假设排序越往后，价值越低。到第i个位置的时候，它的价值是 $1/log_2(i+1)$ ，那么第i个结果产生的效益就是 $rel_i * 1/log_2(i+1)$ ，所以：
在这里插入图片描述
当然还有一种比较常用的公式，用来增加相关度影响比重的DCG计算方式是：

百科中写到后一种更多用于工业。当然相关性值为二进制时，即 reli在{0,1}，二者结果是一样的。当然CG相关性不止是两个，可以是实数的形式。

归一化折损累计增益（NDCG）

NDCG， Normalized 的DCG，由于搜索结果随着检索词的不同，返回的数量是不一致的，而DCG是一个累加的值，没法针对两个不同的搜索结果进行比较，因此需要归一化处理，这里是处以IDCG。
在这里插入图片描述
IDCG为理想情况下最大的DCG值。

其中 |REL| 表示，结果按照相关性从大到小的顺序排序，取前p个结果组成的集合。也就是按照最优的方式对结果进行排序。