ROC曲线绘制原理即AUC的意义详解

云走雾走走行程,救苦救难救灾星

有求必应,出古洞四海扬名,在深山修真养性

ROC曲线绘制原理即AUC意义详解

ROC曲线绘制原理

ROC曲线常常用来判定一个分类器的分类效果,想要探究ROC曲线的绘制原理,首先要弄清楚以下几个概念。
在这里插入图片描述
在一个分类任务中,样品往往是要分为两类。比如“有病”vs“没病”、“男人”vs“女人”。而往往我们的分类器的分类效果并没有那么好,所以会出现分错的情况。根据这些错分的样品数量,我们得到一个概念——假阳性率(FPR):
在这里插入图片描述
与之对应的是真阳性率(TPR):
在这里插入图片描述
那么所谓ROC曲线,便是在不同阈值下,由TPR和FPR所构成的图像了。
在这里插入图片描述

这个时候你肯定还是看不懂,因为你看得懂就不会翻到我这篇文章了…(酸里酸气)

ok,我从一个分类问题开始,一步步的绘制ROC曲线。

这里呢,通过你选定的超平面分类算法,将两类点成功分类。其中红色的点为阳性,绿色的点为阴性。
可以看到这条超平面的分类效果是很棒的,没有分类错误的现象。
在这里插入图片描述而超平面的公式是在这里插入图片描述

所以你可以利用得出的W来为每个点算出一个值,具体数值已经在图片中标出。得数的绝对值越大,证明离超平面越远,分类越清晰。

如果你理解不了加黑字体的意思,我还有下一个版本的:

通过分类算法找到了一条“分类用的线”,并且把每个点到这条线的距离都标在了图片上,距离这条线越远,证明分类正确的把握越大。

那么ROC曲线是怎么画的呢?

把握最大的点开始(在分类线最上方的点),不断的将点划入阳类,同时计算真阳性率(TPR)和假阳性率(FPR)
注:这里是从点的值为负数开始,也就是线的上方开始不断的将点划入阳类

为了方便下文理解,重新放进这张图
在这里插入图片描述
最开始呢,我们把点(1,4)划入阳性集,此时a=1,b=0,真实阳性个数(T)=3,真实阴性个数(F)=3
那么真阳性率为/1/3,假阳性率为0

之后我们把(1,3)划入阳性集,此时a=2,b=0,真实阳性个数(T)=3,真实阴性个数(F)=3
那么真阳性率为/2/3,假阳性率为0

之后我们把(1,2)划入阳性集,此时a=3,b=0,真实阳性个数(T)=3,真实阴性个数(F)=3
那么真阳性率为1,假阳性率为0

之后我们把(2,1)划入阳性集,此时a=3,b=1,真实阳性个数(T)=3,真实阴性个数(F)=3
那么真阳性率为1,假阳性率为1/3
注:从这里开始,将阴性点划入阳性集,出现假阳性

之后我们把(3,1)划入阳性集,此时a=3,b=2,真实阳性个数(T)=3,真实阴性个数(F)=3
那么真阳性率为1,假阳性率为2/3

之后我们把(3,1)划入阳性集,此时a=3,b=3,真实阳性个数(T)=3,真实阴性个数(F)=3
那么真阳性率为1,假阳性率为1

通过将不同点划入阳性集所得到的真阳性率和假阳性率,就可以绘制ROC曲线啦!

建议用笔自己画一画!!!!

好嘞,现在开始说一下这个ROC的特点,通过上述步骤可以看出来,每划入一个点到阳性集,都会使得 a增大 1 (判断正确——真阳性数量增加),或b增大1(判断错误——假阳性数量增加)。当a增大时,曲线会向上生长一小段,当b增大时图像会向右生长一小段。所以ROC的特点就是只能向上或是向右生长,不能向下向左生长!

那么问题来了,所谓的AUC是什么?为什么AUC越大表示分类效果越好?

AUC的意义

AUC即为ROC曲线下的面积。由于真阳性率和假阳性率的范围都是[0,1],所以AUC最大值为1。

上述的ROC曲线的AUC是1,证明分类效果非常棒。

但是请想一想,如果我们的数据如下图所示:
在这里插入图片描述
会发生什么?

他会造成真阳性率没有到达1的时候,假阳性率大于0。换句话说,他会让曲线还没有生长到最高处的时候,右拐,这样AUC就不会达到1.。而当判断错误的点(即假阳性点)离分类线越远,这种右拐现象越早发生,曲线下面积AUC就越小,而右拐现象发生的越晚AUC面积就越大

如果离分类线很远的点还被分类错了(AUC相对较小),即分类正确的把握很大的点被分错了,那么说明我们的分类算法或是分类特征是有问题的。如果离线很近的点被分错了(AUC相对较大),即分类正确的把握很小的点被分错了,那只能说数据有问题(笑)或者这种问题是我们可以接受的。

我们当然希望分类错误的点尽可能的靠近分类线,这样就可以说是数据的问题而不是算法的问题(笑)。这就是为什么AUC越大,说明分类效果越好。

如果你对我上述说明充分理解,那么请看以下叙述
通过将点到分类线的距离排序,所得的对应标签排序:
AUC1 ----> a,a,a,a,a,b,b,b,b,b

AUC2-----> a,a,a,a,b,a,b,b,b,b

AUC3----->a,b,a,a,a,a,b,b,b,b

有AUC1>AUC2>AUC3

同时ROC曲线还特别适合我们样本点分类不均的适合衡量分类器的效能

这里算是介绍完了ROC和AUC。
就说到这里啦!有帮助的话帮忙点个赞哦!!

  • 5
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值