二分类问题的性能度量为何选用 F 1 F_1 F1 值?
已知混淆矩阵
prediction positive | prediction negative | |
---|---|---|
actuality positive | True Positive(TP) | False Negative(FN) |
actuality negative | False Positive(FP) | True Negative(TN) |
其中:Precise(精确率/查准率)=
T
P
T
P
+
F
P
\frac {TP} {TP+FP}
TP+FPTP,表示所有预测为positive的集合中实际为positive的频率;
Recall(召回率/查全率)=
T
P
T
P
+
F
N
\frac {TP} {TP+FN}
TP+FNTP,表示所有实际为positive的集合中预测为positive的频率。
1、“P-R”曲线
对我们来说, P P P 和 R R R 都为1的模型是最完美的,但实际情况却并不像我们想的那样,通过“ P P P- R R R”曲线,对模型判断

图片来源:http://shichaoxin.com/2018/12/03/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E5%9F%BA%E7%A1%80-%E7%AC%AC%E4%B8%89%E8%AF%BE-%E6%A8%A1%E5%9E%8B%E6%80%A7%E8%83%BD%E5%BA%A6%E9%87%8F/
为了防止极端小的 P 和 R P 和 R P和R 值影响我们对模型的判断,一般通过曲线下面积或 P = R P=R P=R 的平衡点作为判别标准。以平衡点判别被认为过于简单。
2、 F 1 F_1 F1值(P和R的调和平均数)
引如
F
1
F_1
F1值作为二分类问题的模型性能度量标准
F
1
=
2
P
R
P
+
R
F_1=\frac{2PR}{P+R}
F1=P+R2PR
这里
F
1
F_1
F1是基于
P
P
P 和
R
R
R 的调和平均数,即
F
1
F_1
F1 的倒数为
P
P
P 和
R
R
R 的倒数之和的二分之一
1
F
1
=
(
1
P
+
1
R
)
×
1
2
\frac{1}{F_1}=(\frac{1}{P}+\frac{1}{R})\times\frac{1}{2}
F11=(P1+R1)×21
在统计学中,调和平均数(
F
F
F)、几何平均数(
G
G
G)、算数平均数(
X
‾
\overline X
X)
它们之间的关系用公式表示为
F
≤
G
≤
X
‾
F\le G\le \overline X
F≤G≤X
其中,
F
=
2
a
b
a
+
b
F=\frac{2ab}{a+b}
F=a+b2ab、
G
=
a
b
G=\sqrt{ab}
G=ab、
X
‾
=
a
+
b
2
\overline X=\frac{a+b}{2}
X=2a+b,当且仅当
a
=
b
a=b
a=b 时上面等式成立
证明如下:
假设存在 a , b > 0 a,b\gt 0 a,b>0,则
(
a
+
b
)
2
−
(
2
a
b
)
2
(a+b)^{2}-(2\sqrt{ab})^{2}
(a+b)2−(2ab)2
=
a
2
+
b
2
+
2
a
b
−
4
a
b
=a^{2}+b^{2}+2ab-4ab
=a2+b2+2ab−4ab
=
a
2
+
b
2
−
2
a
b
=a^{2}+b^{2}-2ab
=a2+b2−2ab
=
(
a
−
b
)
2
≥
0
=(a-b)^{2}\ge 0
=(a−b)2≥0,当且仅当
a
=
b
a=b
a=b 时等式成立
即
(
a
+
b
)
2
≥
(
2
a
b
)
2
(a+b)^{2}\ge (2\sqrt{ab})^{2}
(a+b)2≥(2ab)2
已知
a
,
b
>
0
a,b\gt 0
a,b>0,则
a
+
b
≥
2
a
b
a+b\ge2\sqrt{ab}
a+b≥2ab
推出
2
a
b
a
+
b
≤
a
b
a
b
≤
a
b
≤
a
+
b
2
\frac{2ab}{a+b}\le\frac{ab}{\sqrt{ab}}\le\sqrt{ab} \le\frac{a+b}{2}
a+b2ab≤abab≤ab≤2a+b
当且仅当
a
=
b
a=b
a=b 时等式成立
即证。
这三种平均数各有利弊,但调和平均数受极端值影响较大,更适合评价不平衡数据的分类问题。
3、举例
已知三种模型得到的 P P P 和 R R R 值如下,分别计算三种平均数
P P P | R R R | X ‾ \overline X X | G G G | F 1 F_1 F1 | |
---|---|---|---|---|---|
algorithm 1 | 0.5 | 0.4 | 0.45 | 0.45 | 0.44 |
algorithm 2 | 0.7 | 0.1 | 0.4 | 0.27 | 0.18 |
algorithm 3 | 0.02 | 1.0 | 0.51 | 0.14 | 0.04 |
可以看出算法3的 P P P 值非常小,我们认为此模型效果不好,但是利用算数平均数和几何平均数来衡量并不能表现出来,只有 F 1 F_1 F1 对极端值比较重视,能够感受到这种变化。
参考
[1]统计学
[2]机器学习基础-模型性能度量