搜索评价指标 / 标签排序指标:nDCG

搜索评价指标 / 标签排序指标:nDCG


概念

  • nDCG, Normalized Discounted cumulative gain, 翻译为归一化折损累计增益。这个指标通常是用来衡量和评价搜索结果算法。DCG的两个思想:1)高关联度的结果比一般关联度的结果更影响最终的指标得分;2)高关联度的结果出现在更靠前的位置,指标得分会更高。

累计增益(CG)

  • CG, 即cumulative gain,是DCG的前身。只考虑了相关性的关联程度,没有考虑到位置前后顺序的因素。所以是一个与搜索结果或分类结果相关分数的总和,与排序无关。指定位置p上的CG为:
    C G p = ∑ i = 1 p r e l i \mathrm{CG}_{\mathrm{p}}=\sum_{i=1}^{p} r e l_{i} CGp=i=1preli
    r e l i rel_i reli代表i这个位置上的相关度。
  • 举例:假设搜索“篮球”结果,最理想的结果是:B1、B2、 B3。而出现的结果是 B3、B1、B2的话,CG的值是没有变化的,因此需要下面的DCG。
  • 再举例:以下为一次网页搜索的结果,Gain是预定义的一种获得增益,CG指的是某个位置上的网页Gain的累加。
    网页Gain例子
    上图中的gain的预定义如下:
    网页Gain定义

折扣累计增益(DCG)

  • DCG, Discounted 的CG,就是在每一个CG的结果上除以一个折损值discouted。目的是为了让排名越靠前的结果在最后结果得分上占的比重更大。假设排序越靠后,对最终结果的影响价值就越低。公式中定义,到第 i i i个位置时,它的价值是 1 l o g 2 ( i + 1 ) \frac{1}{log_2(i+1)} log2(i+1)1,那么第 i i i个结果产生的效益就是 r e l i l o g 2 ( i + 1 ) \frac{rel_i}{log_2(i+1)} log2(i+1)reli。所以:
    D C G p = ∑ i = 1 p r e l i log ⁡ 2 ( i + 1 ) = r e l 1 + ∑ i = 2 p r e l i log ⁡ 2 ( i + 1 ) \mathrm{DCG}_{\mathrm{p}}=\sum_{i=1}^{p} \frac{r e l_{i}}{\log _{2}(i+1)}=r e l_{1}+\sum_{i=2}^{p} \frac{r e l_{i}}{\log _{2}(i+1)} DCGp=i=1plog2(i+1)reli=rel1+i=2plog2(i+1)reli
  • 还有一种比较常用的公式,用来增加相关度影响比重的DCG计算方式是:
    D C G p = ∑ i = 1 p 2 r e l i − 1 log ⁡ 2 ( i + 1 ) \mathrm{DCG}_{\mathrm{p}}=\sum_{i=1}^{p} \frac{2^{rel_{i}}-1}{\log _{2}(i+1)} DCGp=i=1plog2(i+1)2reli1
  • 维基百科中写到后一种更多用于工业。当然相关性值为二进制时,即 reli在{0,1},二者结果是一样的。当然CG相关性不止是两个,可以是实数的形式。

归一化折损累计增益(nDCG)

  • nDCG, 即Normalized 的DCG,由于搜索结果随着检索词的不同,返回的数量是不一致的,而DCG是一个累加的值,没法针对两个不同的搜索结果进行比较,因此需要归一化处理,这里是除以IDCG。
    n D C G p = D C G p I D C G p \mathrm{nDCG}_{\mathrm{p}}= \frac{DCG_{p}}{IDCG_{p}} nDCGp=IDCGpDCGp
    IDCG为理想情况下最大的DCG值
    I D C G p = ∑ i = 1 ∣ R E L ∣ 2 r e l i − 1 log ⁡ 2 ( i + 1 ) \mathrm{IDCG}_{\mathrm{p}}=\sum_{i=1}^{|REL|} \frac{2^{rel_{i}}-1}{\log _{2}(i+1)} IDCGp=i=1RELlog2(i+1)2reli1
    其中 |REL| 表示,结果按照相关性从大到小的顺序排序,取前p个结果组成的集合。也就是按照最优的方式对结果进行排序。

实际的例子

-假设搜索回来的5个结果,其相关性分数分别是3、2、3、0、1、2,那么 CG = 3+2+3+0+1+2。CG对相关度的分数进行累加得到一个打分,并没有针对结果排序位置对评分产生影响。
-而DCG的计算则为:

i r e l i rel_i reli l o g 2 ( i + 1 ) log_2(i+1) log2(i+1) r e l i l o g 2 ( i + 1 ) \frac{rel_i}{log_2(i+1)} log2(i+1)reli
1313
221.581.26
3321.5
402.320
512.580.38
622.80.71

所以 DCG = 3+1.26+1.5+0+0.38+0.71 = 6.86

  • 接下来我们归一化,归一化需要先结算 IDCG,假如我们实际召回了8个物品,除了上面的6个,还有两个结果,假设第7个相关性为3,第8个相关性为0。那么在理想情况下的相关性分数排序应该是:3、3、3、2、2、1、0、0。计算IDCG@6:
i r e l i rel_i reli l o g 2 ( i + 1 ) log_2(i+1) log2(i+1) r e l i l o g 2 ( i + 1 ) \frac{rel_i}{log_2(i+1)} log2(i+1)reli
1313
231.581.89
3321.5
422.320.86
522.580.77
612.80.35

所以IDCG = 3+1.89+1.5+0.86+0.77+0.35 = 8.37

  • 所以最终,NDCG@6 = 6.86/8.37 = 81.96%

参考链接:

  1. 搜索评价指标——NDCG - 胖喵_ - 博客园
  2. NDCG Normalized discounted cumulative gain 理解分析 - xiangyong58的专栏 - CSDN博客
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
以下是对评价指标NDCG、AUC、ACC、Precision和Recall的简要介绍: 1. NDCG (Normalized Discounted Cumulative Gain):NDCG是用于衡量排序算法性能的指标,常用于评估推荐系统的排序质量。它考虑了推荐列表中每个项目的相关性和排序位置,通过对相关性进行折扣和累加来计算得分,然后将得分标准化,使得评估结果在0到1之间,越接近1表示排序质量越好。 2. AUC (Area Under the ROC Curve):AUC是用于衡量分类算法性能的指标,常用于评估二分类问题的预测准确性。ROC曲线是以真正例率(True Positive Rate)为纵轴,假正例率(False Positive Rate)为横轴绘制的曲线,AUC则是ROC曲线下的面积。AUC越接近1表示分类器性能越好。 3. ACC (Accuracy):ACC是用于衡量分类算法性能的指标,表示分类器正确预测的样本占总样本数的比例。ACC通常用于评估多分类问题中分类器的准确性,取值范围为0到1,越接近1表示分类器性能越好。 4. Precision (精确率):Precision是用于衡量分类算法性能的指标,表示分类器在预测为正例的样本中,真正例的比例。精确率主要关注分类器的预测准确性,计算公式为真正例数除以真正例数加上假正例数。 5. Recall (召回率):Recall是用于衡量分类算法性能的指标,表示分类器成功预测为正例的样本占所有真正例的比例。召回率主要关注分类器对正例的全面性,计算公式为真正例数除以真正例数加上假负例数。 这些评价指标在不同的任务和场景中有不同的应用,可以帮助评估模型的性能和效果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值