机器学习中的AUC是什么

AUC(Area Under Curve)是ROC曲线下的面积,衡量分类器区分正负类的能力。ROC曲线的横轴是假阳性率(FP),纵轴是真阳性率(TP)。AUC取值范围在0.5到1之间,1表示完美分类,0.5表示随机猜测。在样本不平衡时,AUC仍能提供有效评估,但极端不平衡时可能失真,此时使用AUC of PR可能更合适。
摘要由CSDN通过智能技术生成

一句话解释

AUC(Area under curve)曲线下面区域的面积,这条曲线一般指ROC(Receiver operator characteristic curve)曲线。

详细解释

首先,需要了解一个混淆矩阵:

在这个混淆矩阵中,有预测类别(positive和negative)和真实类别(true和false)。

这样就会产生以下概念:

TP(ture positive)真阳率:TP=\frac{TP}{TP+FN} 在所有正类样本中,预测为正类的比例;

FP(false positive)假阳率:FP=\frac{FP}{FP+TN} 在所有负类样本中,预测为正类的比例;

TN(true negative)真阴率:在所有负类样本中,预测为负类的比例;

FN(false negative)假阴率:在所有正类样本中,预测为负类的比例。

 上述概念明白后,就可以看AUC和ROC了。

按照定义,AUC是ROC曲线下的面积,而ROC曲线的横轴是FP,纵轴是TP。

当x=y时,如上图所示。表示无论任何样本,分类器预测为1的概率是相等的。换句话说就是这个分类器对正负类没有区分能力。因此一般认为AUC的最小值是0.5。

而我们希望分类器达到的效果是:对于正类样本,分类器预测为正类(1)的概率要大于负类样本预测为正类(1)的概率,即TP>FP,y>x。因此,大部分的ROC曲线长下面这样:

在最理想的情况下,TP一直为1,FP为0,即AUC为1,这是AUC的最大值。

举个栗子

假设某硬分类器对八个样本的预测情况如下:

得到如下混淆矩阵:

可以得出TP=3/4,TN=1/2,那么就会得到如下ROC曲线。

那么AUC为0.625

谈谈优缺点

AUC(of ROC)的计算方法同时考虑了分类器对正类和负类的分类能力,这样在样本不平衡的情况下仍可以做出合理的评价,但在正负样本极不平衡时,也会造成失真,这时采用(AUC of PR)会更好。

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值