【推荐系统的评估】离线评估指标AUC

一、AUC的两种理解

        1.1、ROC曲线下方的面积

实际值\预测值正P负F
正PTPFN
负FFPTN
  1. True positive(TP),称为真阳率,表明实际是正样本预测成正样本的样本数
  2. False positive(FP),称为假阳率,表明实际是负样本预测成正样本的样本数
  3. False negative(FN),称为假阴率,表明实际是正样本预测成负样本的样本数
  4. True negative(TN),称为真阴率,表明实际是负样本预测成负样本的样本数

ROC曲线的横坐标为False Positive Rate(FPR,假阳性率),所有负样本中被错判为正的样本数所占的比例,显然,我们不希望该指标太高。

                                        FPR = \frac{FP}{N}=\frac{FP}{FP+TN}

纵坐标为True Positive Rate(TPR,真阳性率),所有正样本中真正为正样本的样本所占比例,当然,我们希望真阳率越高越好。

                                        TPR=\frac{TP}{P}=\frac{TP}{TP+FN}

ROC曲线的绘制:

  • 将样本按照预测概率从⾼到低排序,依次选择不同的概率作为正负样本分类的阈值;
  • 对于每个阈值,统计FPR和TPR,在图上标注出来对应的点,再连接每个点就可得到最后的ROC曲线。

ROC曲线的几种特殊情况:

  • (0,0):假阳率和真阳率都为0,即分类器全部预测成负样本
  • (0,1):假阳率为0,真阳率为1,全部完美预测正确,happy
  • (1,0):假阳率为1,真阳率为0,全部完美预测错误,悲剧
  • (1,1):假阳率和真阳率都为1,即分类器全部预测成正样本
  • TPR=FPR,斜对角线,预测为正样本的结果一半是对的,一半是错的,代表随机分类器的预测效果

于是,我们可以得到基本的结论:ROC曲线在斜对角线以下,则表示该分类器效果差于随机分类器,反之,效果好于随机分类器,当然,我们希望ROC曲线尽量除于斜对角线以上,也就是向左上角(0,1)凸。

1.2、统计意义

随机抽出一对样本(一个正样本,一个负样本),然后用训练得到的分类器来对这两个样本进行预测,预测得到正样本的概率大于负样本概率的概率。

AUC=P(P_{P}>P_{N})

有m+个正样本,m-个负样本,统计所有样本组合中,预测正样本的概率大于负样本的概率的数目,除以总的样本组合数。

常用计算方式:

本质是对上边的一种优化,减少了重复计算。对概率从小到大排序,把所有正样本的排名相加,减去正样本组合对数,得到有多少正样本大于负样本的数目,最后除以总的样本数目。

        这里的逻辑是:排名大小代表当前样本能和前面样本形成的样本对数。如排名第5的正样本和第1-5(包括自身)形成5对,所以正样本排名之和就是正样本形成的全部样本对。

二、AUC为什么能够作为评价指标?

因为AUC的排序特性:对比accuracy、precision等指标,AUC指标本身和模型预测score绝对值无关,只关注排序效果,因此特别适合排序业务。

模型分类问题预测得到的是概率,如果accuracy、F1、precision作为指标,则需要对这个概率设置一个阈值来决定哪些样本预测是正哪些是负,不同的阈值选择,指标值会不同,而这个阈值极大的影响了accuracy的计算。

而AUC可以直接使用score本身,避免把概率准换为类别,参考的是相对顺序,更加好用。

从其统计意义上讲,例如0.7的AUC,其含义可以大概理解为:给定一个正样本和一个负样本,在70%的情况下,模型对正样本的打分高于对负样本的打分。可以看出在这个解释下,我们关心的只有正负样本之间的分数高低,而具体的分值则无关紧要。

三、AUC对均匀正负样本采样不敏感

正由于AUC对分值本身不敏感,故常见的正负样本采样,并不会导致auc的变化。比如在点击率预估中,处于计算资源的考虑,有时候会对负样本做负采样,但由于采样完后并不影响正负样本的顺序分布。

即假设采样是随机的,采样完成后,给定一条正样本,模型预测为score1,由于采样随机,则大于score1的负样本和小于score1的负样本的比例不会发生变化。

四、AUC与线上业务指标的宏观关系

AUC毕竟是线下离线评估指标,与线上真实业务指标有差别。差别越小则AUC的参考性越高。

实例:在实际业务中,常常会发现点击率模型的auc要低于购买转化率模型的auc。在以往的工作经验中,下单的NN模型,auc能在0.9左右 (每日1亿级别的样本)。另外一些小业务中的点击auc约0.7-0.8(每日约一千万样本)。

分析现象:AUC代表模型预估样本之间的排序关系,即正负样本之间预测的gap越大,auc越大。所以从业务上理解,点击率模型中正负样本的差别要小于购买力模型,即购买转化模型的正样本通常更容易被预测准。但往往都是点击率模型更容易做,线上效果更好。

背后原因:通常,点击行为的成本要低于购买行为,购买决策比点击决策过程长、成本重,且用户购买决策受很多场外因素影响,比如预算不够、在别的平台找到更便宜的了、知乎上看了评测觉得不好等等原因,这部分信息无法收集到,导致最终样本包含的信息缺少较大,模型的离线AUC与线上业务指标差异变大。

  • 11
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值