分类指标
评估指标
预测 | 预测 | ||
---|---|---|---|
1 | 0 | ||
标签 | 1 | True Positive | False Negative |
标签 | 0 | False Positive | True Negative |
精度(Accuracy):分类正确的样本数占样本总数的比例
A
c
c
=
T
P
+
T
N
T
P
+
T
N
+
F
P
+
F
N
\mathrm{Acc}=\frac{\mathrm{TP}+\mathrm{TN}}{\mathrm{TP}+\mathrm{TN}+\mathrm{FP}+\mathrm{FN}}
Acc=TP+TN+FP+FNTP+TN
准确率(Precision):预测为1的样本中标签为1的比例
Prec
=
T
P
T
P
+
F
P
\text { Prec }=\frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FP}}
Prec =TP+FPTP
召回率(Recall):标签为1的样本中预测为1的比例
Rec
=
T
P
T
P
+
F
N
\operatorname{Rec}=\frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FN}}
Rec=TP+FNTP
问题:准确率和召回率之间如何权衡?
可以用以下公式来表示二者之间的关系:
y
^
=
{
1
,
p
θ
(
y
=
1
∣
x
)
>
h
0
,
otherwise
\hat{y}=\left\{\begin{array}{ll} 1, & \quad \quad p_{\theta}(y=1 | x)>h \\ 0, & \text { otherwise } \end{array}\right.
y^={1,0,pθ(y=1∣x)>h otherwise
p
θ
(
y
=
1
∣
x
)
p_{\theta}(y=1 | x)
pθ(y=1∣x) 表示在参数为
θ
\theta
θ 的模型参数下,预测为1的样本中,标签为1的概率。
阈值[0,1],越高,代表准确度越高,召回率越低,阈值极端值为0.99
阈值越低,准确度越低,召回率越高,极端情况下,阈值=0
F1 度量 :值越大,代表模型表现越佳。
F
1
=
2
×
Precision
×
R
e
c
a
l
l
Precision
+
R
e
c
a
l
l
\mathrm{F} 1=\frac{2 \times \text { Precision } \times \mathrm{Recall}}{\text { Precision }+\mathrm{Recall}}
F1= Precision +Recall2× Precision ×Recall
AUC评价法(ROC(Receiver operating characteristic)曲线下面积)
基于排序的度量方法。
可以理解为用描点法,瞄出概率从高到低排列中,每个预测概率下,真正率和假正率组成的点坐标,进而得到ROC曲线,计算其包含的面积后,即可得到AUC值。