于衡量二分类模型的指标
对于某个二分类模型,设定相应的分类阈值,可得预测分类结果,统计得到如下混淆矩阵:
预测为正类 | 预测为负类 | |
---|---|---|
实际为正类 | TP | FN |
实际为负类 | FP | TN |
真正例率TPR,同召回率:
T
P
T
P
+
F
N
\frac {TP} {TP+FN}
TP+FNTP
假正例率FPR:
F
P
F
P
+
T
N
\frac {FP} {FP+TN}
FP+TNFP
ROC
ROC曲线横坐标是假正例率FPR,纵坐标是真正例率TPR,范围都是[0,1]。曲线中的每个点对用于不同的分类阈值。
ROC曲线越靠近左上角,模型的准确性就越高。最靠近左上角的ROC曲线上的点是分类错误最少的最佳阈值,其假正例和假反例总数最少
可以通过ROC曲线来辅助选择二分类的阈值(一般设为0.5),也可以通过ROC曲线来比较不同模型的优劣。
ROC曲线如何绘制呢?(占个坑)
AUC
当两个模型的两条ROC曲线发生了交叉,很难判定哪个模型更好,因此引入了AUC。
AUC(Area Under Curve)被定义为ROC曲线下与坐标轴围成的面积,面积小于1。从AUC 判断分类器(预测模型)优劣的标准:
AUC = 1,是完美分类器。
AUC = [0.85, 0.95], 效果很好
AUC = [0.7, 0.85], 效果一般
AUC = [0.5, 0.7],效果较低,但用于预测股票已经很不错了
AUC = 0.5,跟随机猜测一样(例:丢铜板),模型没有预测价值。
AUC < 0.5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测。
参考
https://baike.baidu.com/item/AUC/19282953?fr=aladdin