首先我们来看混淆矩阵:
然后,由此引出True Positive Rate(真阳率)、False Positive(伪阳率)两个概念:
TPRate的意义是所有真实类别为1的样本中,预测类别为1的比例
FPRate的意义是所有真实类别为0的样本中,预测类别为1的比例
ROC
ROC曲线的横轴是FPRate,纵轴是TPRate
当X=Y时,分类器的预测能力为0,也就是和抛硬币没区别,此时AUC为0.5
但是我们希望对一个类别为1的样本,TPRate > FPRate,知识后,我们希望AUC>0.5
,AUC的最大值就是TPRate一直是1,而FPRate是0
AUC的优点是可以在样本不平衡的情况下对分类器做出合理评级:
例如在反欺诈场景,设欺诈类样本为正例,正例占比很少(假设0.1%),如果使用准确率评估,把所有的样本预测为负例,便可以获得99.9%的准确率
但是如果使用AUC,TPRate是0,FPRate也是0,然后0,0和1,1相连,AUC是0.5