在机器学习的评估指标中,AUC是一个最常见也是最常用的指标之一。
AUC本身的定义是基于几何的,但是其意义十分重要,应用十分广泛。
本文作者深入理解AUC,并总结于下。
AUC是什么
在统计和机器学习中,常常用AUC来评估二分类模型的性能。AUC的全称是 area under the curve,即曲线下的面积。
通常这里的曲线指的是受试者操作曲线(Receiver operating characteristic, ROC)。
相比于准确率、召回率、F1值等依赖于判决阈值的评估指标,AUC则没有这个问题。
ROC曲线早在第二次世界大战期间就被使用在电子工程和雷达工程当中,被用于军事目标检测。
后来,ROC曲线也被应用到心理学、医学、机器学习和数据挖掘等领域的模型性能评估。
对于二分类问题,预测模型会对每一个样本预测一个得分s或者一个概率p。
然后,可以选取一个阈值t,让得分s>t的样本预测为正,而得分s
这样一来,根据预测的结果和实际的标签可以把样本分为4类:
正样本
负样本
预测为正
TP(真正例)
FP(假正例)
预测为负
FN(假负例)
TN(真负例)
随着阈值t选取的不同,这四类样本的比例各不相同。定义真正例率TPR和假正例率FPR为:
对于真正例率TPR,分子是得分>t里面正样本的数目,分母是总的正样本数目。
而对于假正例率FPR,分子是得分>t里面负样本的数目,分母是总的负样本数目。