一句话解释
AUC(Area under curve)曲线下面区域的面积,这条曲线一般指ROC(Receiver operator characteristic curve)曲线。
详细解释
首先,需要了解一个混淆矩阵:
在这个混淆矩阵中,有预测类别(positive和negative)和真实类别(true和false)。
这样就会产生以下概念:
TP(ture positive)真阳率: 在所有正类样本中,预测为正类的比例;
FP(false positive)假阳率: 在所有负类样本中,预测为正类的比例;
TN(true negative)真阴率:在所有负类样本中,预测为负类的比例;
FN(false negative)假阴率:在所有正类样本中,预测为负类的比例。
上述概念明白后,就可以看AUC和ROC了。
按照定义,AUC是ROC曲线下的面积,而ROC曲线的横轴是FP,纵轴是TP。
当x=y时,如上图所示。表示无论任何样本,分类器预测为1的概率是相等的。换句话说就是这个分类器对正负类没有区分能力。因此一般认为AUC的最小值是0.5。
而我们希望分类器达到的效果是:对于正类样本,分类器预测为正类(1)的概率要大于负类样本预测为正类(1)的概率,即TP>FP,y>x。因此,大部分的ROC曲线长下面这样:
在最理想的情况下,TP一直为1,FP为0,即AUC为1,这是AUC的最大值。
举个栗子
假设某硬分类器对八个样本的预测情况如下:
得到如下混淆矩阵:
可以得出TP=3/4,TN=1/2,那么就会得到如下ROC曲线。
那么AUC为0.625
谈谈优缺点
AUC(of ROC)的计算方法同时考虑了分类器对正类和负类的分类能力,这样在样本不平衡的情况下仍可以做出合理的评价,但在正负样本极不平衡时,也会造成失真,这时采用(AUC of PR)会更好。