AUC是一种衡量机器学习模型分类性能的重要且非常常用的指标,其只能用于二分类的情况.
AUC的本质含义反映的是对于任意一对正负例样本,模型将正样本预测为正例的可能性 大于 将负例预测为正例的可能性的 概率( :-) 没办法这句话就是这么绕, rap~).
AUC作为数值,那么到底是怎么来的?怎么理解它的意义?
在真正接触AUC之前,还需要了解两个概念, 分别是混淆矩阵(confusion matrix) 和 ROC曲线.
混淆矩阵:
混淆矩阵.png
可以看出混淆矩阵由四个值构成:
TP : 真实类别为1,且预测结果为1的样本个数,预测正确.
FP : 真实类别为0,且预测结果为1的样本个数,预测错误.
FN : 真实类别为1,且预测结果为0的样本个数,预测错误.
TN : 真实类别为0,且预测结果为0的样本个数,预测正确.
由混淆矩阵可以计算得到ROC曲线的关键参数:TPR(真正例率) 和 FPR(假正例率).
对TPR最通俗易懂的理解即将正例预测为正例的比例
对FPR最通俗易懂的理解即将负例预测为正例的比例(注意: TPR和FPR分子上表示的都是模型将样本预测为正例的情况,不过一个是预测正确一个是预测错误)
理解到这个程度就可以接触ROC曲线了
ROC curve
可以从图上面看出,FPR和TPR分别是ROC曲线的横坐标和纵坐标.对于ROC曲线有四个点需要单独拎出来理解,这对理解AUC也是很有帮助的.它们分别是:
[0, 0] :