文章目录
查准率、查全率、F1
对于二分类问题,样本真实类别和模型预测类别有4种组合情况:
- 真正例(TP),样本为正,模型也判断为正;
- 假正例(FP),样本为反,模型误判为正;
- 真反例(TN),样本为反,模型也判断为反;
- 假反例(FN),样本为正,模型误判为反。
由此引出3个指标:
- 准确率(accuracy), A = T P + T N T P + F N + F P + T N A=\frac{TP+TN}{TP+FN+FP+TN} A=TP+FN+FP+TNTP+TN,很好理解,正确的样本数除上所有样本数;
- 查准率(precision), P = T P T P + F P P=\frac{TP}{TP+FP} P=TP+FPTP;
- 召回率(recall,也叫查全率), R = T P T P + F N R=\frac{TP}{TP+FN} R=TP+FNTP。
其中查准率和召回率初学者很容易搞混,查准率的思想是“宁可漏抓,不可错抓”,而召回率的思想是“宁可错抓,不可漏抓”。为了读者更好的理解,下面做一些比喻。
查准率就好像医院识别哪些人肿瘤需要开刀;这里就算一些人肿瘤没被识别出来也没关系,反正肿瘤初期对生活没啥影响;而这里更关心的是确诊的人中有哪些是误诊,因为如果没肿瘤却被开刀是很伤身体的。
召回率就好像你去图书馆找东野圭吾的所有小说;管理员从1万本书中给你挑出了100本,这时就算100本中有50本不是无野圭吾的你也不会太生气,因为你可以自己进行二次筛选;而这里你更在意的是图书馆剩下9900本书中还有没有漏选的书。
当我们调节模型参数时, P P P和 R R R往往相互“矛盾”,提高一者必导致另一者下降,如果有一个模型的 P P P和 R R R都很高,那这模型一定很优秀。
为了全面评估模型好坏,我们要综合考虑
P
P
P和
R
R
R的值,为此我们引入
F
1
F1
F1度量
F
1
=
2
×
P
×
R
P
+
R
F1=\frac{2 \times P \times R}{P+R}
F1=P+R2×P×R
F
1
F1
F1其实是
F
β
F_\beta
Fβ当
β
=
1
\beta = 1
β=1的特殊情况
F
β
=
(
1
+
β
2
)
×
P
×
R
(
β
2
×
P
)
+
R
F_{\beta}=\frac{\left(1+\beta^{2}\right) \times P \times R}{\left(\beta^{2} \times P\right)+R}
Fβ=(β2×P)+R(1+β2)×P×R
在不同应用场景中我们对
P
P
P和
R
R
R的重视程度不同,可以调节
β
\beta
β参数实现,当
β
>
1
\beta \gt 1
β>1时
R
R
R有更大影响,当
0
<
β
<
1
0 \lt \beta \lt 1
0<β<1时
P
P
P有更大影响。
ROC曲线
ROC曲线下方的面积叫做AUC,该面积越大则模型越好。