C o n f u s i o n M a t r i x : Confusion Matrix: ConfusionMatrix:
| |||
---|---|---|---|
|
| ||
|
|
|
|
|
|
|
召回率 R e c a l l = T P T P + F N Recall = \dfrac{TP}{TP + FN} Recall=TP+FNTP,关注真实情况,关注positive。“好瓜被挑出来的概率”
精确率 P r e c i s i o n = T P T P + F P Precision = \dfrac{TP}{TP + FP} Precision=TP+FPTP,关注预测情况,关注positive。“挑出来的瓜有多少真的是好瓜”
正确率 A c c u r a c y = T P + T N T P + F N + F P + T N Accuracy = \dfrac{TP + TN}{TP + FN + FP + TN}\quad Accuracy=TP+FN+FP+TNTP+TN,positive与negative预测的准确性
F
F
F值:
β
2
+
1
F
=
β
2
R
+
1
P
\dfrac{\beta^2 +1}{F} = \dfrac{\beta^2}{R} + \dfrac{1}{P}
Fβ2+1=Rβ2+P1
- β 2 = 1 \beta^2 = 1 β2=1时,对于 F F F, R R R、 P P P 影响权重相同,即常用的 F 1 F_1 F1;
- β 2 > 1 \beta^2 > 1 β2>1时,对于 F F F, R R R相比于 P P P影响权重大,当重视召回率R时可以选择 β 2 > 1 \beta^2>1 β2>1;
- β 2 < 1 \beta^2 < 1 β2<1时,对于 F F F, R R R相比于 P P P影响权重小,当重视精确率P时可以选择 β 2 < 1 \beta^2<1 β2<1;
真阳性率TPR,又可称为灵敏度,关注真实情况,关注positive,
T
P
R
=
T
P
T
P
+
F
N
TPR = \dfrac{TP}{TP + FN}
TPR=TP+FNTP。
灵敏度:正例被挑出的概率。如果一项诊断试验的灵敏度比较低,那么会出现很多假阴性的患者。这会延误患者的就诊,影响病程发展和愈后,甚至导致患者过早死亡。
假阳性率FPR,又等于1-特异度,关注真实情况,关注negative,
F
P
R
=
F
P
F
P
+
T
N
FPR = \dfrac{FP}{FP + TN}
FPR=FP+TNFP。
特异度:负例被挑出的概率。如果一项诊断试验的特异度比较低,那么会出现很多假阳性的患者。这样会浪费医疗资源、造成患者无端的恐慌和焦虑。
当选择不同的threshold时,
T
P
R
、
F
P
R
TPR、FPR
TPR、FPR值会随之变化,遍历所有的threshold后,会得到一系列的
T
P
R
、
F
P
R
TPR、FPR
TPR、FPR,用
T
P
R
TPR
TPR作为
Y
Y
Y轴,用
F
P
R
FPR
FPR作为
X
X
X轴,即得到
R
O
C
ROC
ROC。
R O C ROC ROC主要作用:
-
ROC曲线能很容易的查出任意阈值对学习器的泛化性能影响。
-
有助于选择最佳的阈值。ROC曲线越靠近左上角,模型的查全率就越高。最靠近左上角的ROC曲线上的点是分类错误最少的最好阈值,其假正例和假反例总数最少。
-
可以对不同的学习器比较性能。将各个学习器的ROC曲线绘制到同一坐标中,直观地鉴别优劣,靠近左上角的ROC曲所代表的学习器准确性最高。
AUC就是ROC曲线下的面积,衡量学习器优劣的一种性能指标。
KS
在风控中,我们常用KS指标来评估模型的区分度(discrimination)
K
S
=
max
(
∣
T
P
R
−
F
P
R
∣
)
KS = \max(|TPR-FPR|)
KS=max(∣TPR−FPR∣)
即ROC曲线切线位置。