本文将重点介绍精确率、召回率、特异性、F1、AUC五个指标。
假设原始样本中有两类,其中:
1:总共有P个类别为1的样本,假设类别1为正例。
2:总共有N个类别为0的样本,假设类别0为负例。
3:有 TP个类别为1的样本被系统正确判定为类别1,FN 个类别为1的样本被系统误判定为类别 0,显然有P=TP+FN。
4:有 FP 个类别为0的样本被系统误判断定为类别1,TN 个类别为0的样本被系统正确判为类别 0,显然有N=FP+TN。
准确率
准确率(Accuracy):
A = (TP + TN)/(P+N) = (TP + TN)/(TP + FN + FP + TN); 反映了分类器统对整个样本的判定能力——能将正的判定为正,负的判定为负
精确率、召回率、特异性
精确度(Precision):
P = TP/(TP+FP),反映了被分类器判定的正例中真正的正例样本的比重
召回率(Recall),也称为 True Positive Rate:
R = TP/(TP+FN) = 1 - FN/T,反映了总的正例中被正确判定的正例占的比重
特异性(Specity),也称为 True Negative Rate:
S = TN/(TN+FP),反映了被正确判定的负例占总的负例的比重
F1
我们将F1定义为精确率与召回率的调和平均数。
1/F1=(1/Precison+1/Recall)∗1/2
这样可以避免出现精确率或召回率为1而另一端为0的极端情况出现。
还可以根据对精确率/召回率的不同偏好设置两者的比率$\beta
1/Fβ=1/(1+β2)∗(1/Precision+β2/Recall)