nDCG 与 GSB, 排序模型评价指标

简介

DCG, Discounted Cumulative Gain ,累计收益折扣.
A measure of ranking quality. 是信息检索领域中, 对排序问题的一个评价指标, 因素有文档相关性排序位置.

Q: 与推荐场景常用的AUC, 有何区别?
A: DCG侧重于样本分档, 而非简单的 正/负 sample.

使用场景举例:

  • 用户输入一个query, 得到了很多结果, 这个指标可以对有序的结果进行评价.
  • 相关场景: 文档打标签, 把程序的标签输出也看成有序的, 就也可以用该指标评价.

思想

This measure is based on two following assumptions:

  1. 高度相关文档在排名靠前时, 对用户的帮助更大
  2. 高度相关文档比轻微相关文档, 对用户的帮助更大

公式

D C G k = ∑ i = 1 k r e l i log ⁡ 2 ( i + 1 ) \mathrm{DCG_k} = \sum_{i=1}^{k} \frac{rel_{i}}{\log_{2}(i+1)} DCGk=i=1klog2(i+1)reli
where r e l i rel_{i} reli is i-th doc’s relevant score. k k k is the rank position.
根据k=3(或 10)取值不同, 算出来的就是 前3(或 前10) 个结果的DCG.

nDCG

nDCG, Normalized DCG , 正规化的累计收益折扣.

不同的query, 搜索结果的个数不一致, 所以需要正规化.
IDCG, 表示在理想情况下, 这些文档按照相关性单调递减排序时的DCG得分.

n D C G k = D C G k I D C G p \mathrm{nDCG_{k}} = \frac {DCG_k} {IDCG_p} nDCGk=IDCGpDCGk

GSB

通常用于两个模型之间的对比, 而非单个模型的评测.

Δ G S B = # g o o d − # b a d # g o o d + # s a m e + # b a d \Delta GSB=\frac{\#good-\#bad}{\#good+\#same+\#bad} ΔGSB=#good+#same+#bad#good#bad
场景为已经有了一版模型A, 现在迭代了一版模型B, 评估B是否更优于A

<query,doc>B模型比A模型的提升
q1,d1good
q2,d2same
q3,d3bad
q4,d4bad

按照上表的统计,
Δ G S B = − 1 / 4 \Delta GSB=-1/4 ΔGSB=1/4, 不能上线.

以下是对评价指标NDCG、AUC、ACC、Precision和Recall的简要介绍: 1. NDCG (Normalized Discounted Cumulative Gain):NDCG是用于衡量排序算法性能的指标,常用于评估推荐系统的排序质量。它考虑了推荐列表中每个项目的相关性和排序位置,通过对相关性进行折扣和累加来计算得分,然后将得分标准化,使得评估结果在0到1之间,越接近1表示排序质量越好。 2. AUC (Area Under the ROC Curve):AUC是用于衡量分类算法性能的指标,常用于评估二分类问题的预测准确性。ROC曲线是以真正例率(True Positive Rate)为纵轴,假正例率(False Positive Rate)为横轴绘制的曲线,AUC则是ROC曲线下的面积。AUC越接近1表示分类器性能越好。 3. ACC (Accuracy):ACC是用于衡量分类算法性能的指标,表示分类器正确预测的样本占总样本数的比例。ACC通常用于评估多分类问题中分类器的准确性,取值范围为0到1,越接近1表示分类器性能越好。 4. Precision (精确率):Precision是用于衡量分类算法性能的指标,表示分类器在预测为正例的样本中,真正例的比例。精确率主要关注分类器的预测准确性,计算公式为真正例数除以真正例数加上假正例数。 5. Recall (召回率):Recall是用于衡量分类算法性能的指标,表示分类器成功预测为正例的样本占所有真正例的比例。召回率主要关注分类器对正例的全面性,计算公式为真正例数除以真正例数加上假负例数。 这些评价指标在不同的任务和场景中有不同的应用,可以帮助评估模型的性能和效果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值