混淆矩阵(Confusion Matrix)
以二分类问题为例,可以划分TP,TN,FP,FN
进而得到两个关键指标精确率Precision,召回率Recall
预测的正例中的真正例比例
P
=
T
P
T
P
+
F
P
P=\frac{TP}{TP+FP}
P=TP+FPTP
正例被预测对的比例
R
=
T
P
T
P
+
F
N
R=\frac{TP}{TP+FN}
R=TP+FNTP
显然P,R是一定负相关的指标
因此使用综合了P,R的f1 score
f
1
=
2
P
R
P
+
R
f_{1}=\frac{2PR}{P+R}
f1=P+R2PR
概率密度评估指标
IV值(K-L距离)
相对熵,也称为K-L散度,然而,K-L散度没有对称性,对称化后的K-L散度即K-L距离就是IV值。
概率分布评估指标
根据混淆矩阵计算真正率(TPR)和假正率(FPR)指标
T
P
R
=
R
e
c
a
l
l
=
T
P
T
P
+
F
N
TPR=Recall=\frac{TP}{TP+FN}
TPR=Recall=TP+FNTP
F
P
R
=
F
P
F
P
+
T
N
FPR=\frac{FP}{FP+TN}
FPR=FP+TNFP
ROC
以真正率TPR为纵坐标,以假正率FPR为横坐标绘制的曲线就是ROC(Receiver Operating Characteristic)曲线ROC曲线上每个点表示分类模型在特定的截断点下的(TPR、FPR)。ROC曲线越靠近左上角模型的表现越好。
AUC
AUC(Area under the curve)值,即ROC曲线与坐标轴围成的面积,面积越大表示模型的性能越好。AUC的取值范围为0~1之间,AUC的值存在小于0.5的情况,不过AUC的值要大于0.5才有意义。一般来说AUC大于0.75的模型效果表现较好。AUC越接近1,说明预测效果越好。