搜索评价指标 / 标签排序指标：nDCG

最新推荐文章于 2023-07-04 15:12:11 发布

霍姆格雷特

最新推荐文章于 2023-07-04 15:12:11 发布

阅读量1.3k

点赞数

分类专栏：机器学习

原文链接：https://www.cnblogs.com/by-dream/p/9403984.html

版权

2 篇文章 0 订阅

订阅专栏

nDCG, Normalized Discounted cumulative gain, 翻译为归一化折损累计增益。这个指标通常是用来衡量和评价搜索结果算法。DCG的两个思想：1)高关联度的结果比一般关联度的结果更影响最终的指标得分；2)高关联度的结果出现在更靠前的位置，指标得分会更高。

CG, 即cumulative gain，是DCG的前身。只考虑了相关性的关联程度，没有考虑到位置前后顺序的因素。所以是一个与搜索结果或分类结果相关分数的总和，与排序无关。指定位置p上的CG为：
$\mathrm{CG}_{\mathrm{p}}=\sum_{i=1}^{p} r e l_{i}$
$rel_i$ 代表i这个位置上的相关度。
举例：假设搜索“篮球”结果，最理想的结果是：B1、B2、 B3。而出现的结果是 B3、B1、B2的话，CG的值是没有变化的，因此需要下面的DCG。
再举例：以下为一次网页搜索的结果，Gain是预定义的一种获得增益，CG指的是某个位置上的网页Gain的累加。

上图中的gain的预定义如下：

DCG， Discounted 的CG，就是在每一个CG的结果上除以一个折损值discouted。目的是为了让排名越靠前的结果在最后结果得分上占的比重更大。假设排序越靠后，对最终结果的影响价值就越低。公式中定义，到第 $i$ 个位置时，它的价值是 $\frac{1}{log_2(i+1)}$ ，那么第 $i$ 个结果产生的效益就是 $\frac{rel_i}{log_2(i+1)}$ 。所以：
$\mathrm{DCG}_{\mathrm{p}}=\sum_{i=1}^{p} \frac{r e l_{i}}{\log _{2}(i+1)}=r e l_{1}+\sum_{i=2}^{p} \frac{r e l_{i}}{\log _{2}(i+1)}$
还有一种比较常用的公式，用来增加相关度影响比重的DCG计算方式是：
$\mathrm{DCG}_{\mathrm{p}}=\sum_{i=1}^{p} \frac{2^{rel_{i}}-1}{\log _{2}(i+1)}$
维基百科中写到后一种更多用于工业。当然相关性值为二进制时，即 reli在{0,1}，二者结果是一样的。当然CG相关性不止是两个，可以是实数的形式。

nDCG, 即Normalized 的DCG，由于搜索结果随着检索词的不同，返回的数量是不一致的，而DCG是一个累加的值，没法针对两个不同的搜索结果进行比较，因此需要归一化处理，这里是除以IDCG。
$\mathrm{nDCG}_{\mathrm{p}}= \frac{DCG_{p}}{IDCG_{p}}$
IDCG为理想情况下最大的DCG值
$\mathrm{IDCG}_{\mathrm{p}}=\sum_{i=1}^{|REL|} \frac{2^{rel_{i}}-1}{\log _{2}(i+1)}$
其中 |REL| 表示，结果按照相关性从大到小的顺序排序，取前p个结果组成的集合。也就是按照最优的方式对结果进行排序。