ROC PRC

1. ROC和ROC AUC

ROC曲线是一种评定二分类模型对正类预测效果的曲线图。x 轴是假阳率(FPR),y 轴是真阳率(TPR)

F P R = F P F P + T N FPR = \frac{FP}{FP+TN} FPR=FP+TNFP 反例说错了多少

T P R = T P T P + F N TPR = \frac{TP}{TP+FN} TPR=TP+FNTP 正例里预见了多少

所以,ROC 曲线可以理解为正例里预见了多少(y 轴)对上反例说错了多少(x 轴)

理想情况下,当然希望是正例全都判断对的比例为 1(图像顶部),说错的反例占比为 0(图像左部)。这说明性能最好的最优分类器是在图像左上角(坐标 0,1)

阈值是指判断归于正例还是反例的概率分割点,不论什么分类器默认是 0.5,介于输出半程(0 和 1 中间)。因为阈值的存在,真阳率和假阳率之间存在着权衡,选择不同阈值探求真正例和假正例分布效果,画在图上就是从左下角向右上角延伸,同时偏向左上角的曲线,即 ROC 曲线。

纯随机无分别能力的分类器在图像中是对角线,左起假阳率为 0,真阳率为 0(坐标 (0,0) 或者说全预判为假),右至假阳率为 1,真阳率为 1(坐标 (1,1) 或全预判为真)。如果绘制曲线在对角线以下,直观上性能比随机还差,表现为总说反话,这时可以对这种分类器结果取反。

在这里插入图片描述

1.2 ROC曲线下方面积 AUC

尽管 ROC 曲线作为诊断工具来讲很不错了,但如果要比对两类以上的曲线就变得有些麻烦了。

而曲线下方面积就很巧妙的通过一个值表示了所有阈值下的分类效果,这叫 ROC 曲线下面积或 ROC AUC 或 ROCAUC

面积值介于 0,1 之间。AUCROC 可以被理解为给定分类器,随机抽到正例排在反例前的概率

ROC AUC的缺点
少数类样本极少的极端不均衡分类问题中,ROC AUC 很容易被误导,预测结果正确数多一点或少一点都会带来 ROC 曲线和 ROC AUC 值的巨大变动

计算方法
在有M个正样本,N个负样本的数据集里。一共有 M ∗ N M*N MN对样本(一对样本即一个正样本与一个负样本)。统计这 M ∗ N M*N MN对样本里,正样本的预测概率大于负样本的预测概率的个数。

即:
A U C = ∑ I ( P 正样本  , P 负样本  ) M ∗ N AUC = \frac{\sum I\left(P_{\text {正样本 }}, P_{\text {负样本 }}\right)}{M^{*} N} AUC=MNI(P正样本 ,P负样本 )

其中:
I ( P 正样本  , P 负样本  ) = { 1 , P 正样本  > P 正样本  0.5 , P 正样本  = P 负样本  0 , P 正样本  < P 负样本  I\left(P_{\text {正样本 }}, P_{\text {负样本 }}\right)=\left\{\begin{array}{l}1, P_{\text {正样本 }}>P_{\text {正样本 }} \\ 0.5, P_{\text {正样本 }}=P_{\text {负样本 }} \\ 0, P_{\text {正样本 }}<P_{\text {负样本 }}\end{array}\right. I(P正样本 ,P负样本 )=1,P正样本 >P正样本 0.5,P正样本 =P负样本 0,P正样本 <P负样本 

参考:AUC的计算方法


2. 准确-召回曲线与AUC

准确-召回曲线(PR Curve)以准确率为 y 轴,召回率为 x 轴,根据概率阈值的取值变动画线。

理想中的模型应该在(1,1)坐标点上。性能优异的模型表现为尽量向该点靠近。随机模型则会呈现为一条水平线,取值为数据集内正例比例。平衡数据集是 0.5。

在这里插入图片描述

准确-召回 AUC
面积值可用于对二分类问题下不同模型间的比较,性能越好值越接近 1

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值