为何选用F1值(调和平均数)衡量P与R?

二分类问题的性能度量为何选用 F 1 F_1 F1 值?

已知混淆矩阵

prediction positiveprediction negative
actuality positiveTrue Positive(TP)False Negative(FN)
actuality negativeFalse Positive(FP)True Negative(TN)

其中:Precise(精确率/查准率)= T P T P + F P \frac {TP} {TP+FP} TP+FPTP,表示所有预测为positive的集合中实际为positive的频率;
Recall(召回率/查全率)= T P T P + F N \frac {TP} {TP+FN} TP+FNTP,表示所有实际为positive的集合中预测为positive的频率。

1、“P-R”曲线

对我们来说, P P P R R R 都为1的模型是最完美的,但实际情况却并不像我们想的那样,通过“ P P P- R R R”曲线,对模型判断

P-R曲线

图片来源:http://shichaoxin.com/2018/12/03/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E5%9F%BA%E7%A1%80-%E7%AC%AC%E4%B8%89%E8%AF%BE-%E6%A8%A1%E5%9E%8B%E6%80%A7%E8%83%BD%E5%BA%A6%E9%87%8F/

为了防止极端小的 P 和 R P 和 R PR 值影响我们对模型的判断,一般通过曲线下面积或 P = R P=R P=R 的平衡点作为判别标准。以平衡点判别被认为过于简单。

2、 F 1 F_1 F1值(P和R的调和平均数)

引如 F 1 F_1 F1值作为二分类问题的模型性能度量标准
F 1 = 2 P R P + R F_1=\frac{2PR}{P+R} F1=P+R2PR
这里 F 1 F_1 F1是基于 P P P R R R 的调和平均数,即 F 1 F_1 F1 的倒数为 P P P R R R 的倒数之和的二分之一 1 F 1 = ( 1 P + 1 R ) × 1 2 \frac{1}{F_1}=(\frac{1}{P}+\frac{1}{R})\times\frac{1}{2} F11=(P1+R1)×21
在统计学中,调和平均数( F F F)、几何平均数( G G G)、算数平均数( X ‾ \overline X X)
它们之间的关系用公式表示为
F ≤ G ≤ X ‾ F\le G\le \overline X FGX
其中, F = 2 a b a + b F=\frac{2ab}{a+b} F=a+b2ab G = a b G=\sqrt{ab} G=ab X ‾ = a + b 2 \overline X=\frac{a+b}{2} X=2a+b,当且仅当 a = b a=b a=b 时上面等式成立

证明如下:

假设存在 a , b > 0 a,b\gt 0 a,b>0,则

( a + b ) 2 − ( 2 a b ) 2 (a+b)^{2}-(2\sqrt{ab})^{2} (a+b)2(2ab )2
= a 2 + b 2 + 2 a b − 4 a b =a^{2}+b^{2}+2ab-4ab =a2+b2+2ab4ab
= a 2 + b 2 − 2 a b =a^{2}+b^{2}-2ab =a2+b22ab
= ( a − b ) 2 ≥ 0 =(a-b)^{2}\ge 0 =(ab)20,当且仅当 a = b a=b a=b 时等式成立
( a + b ) 2 ≥ ( 2 a b ) 2 (a+b)^{2}\ge (2\sqrt{ab})^{2} (a+b)2(2ab )2
已知 a , b > 0 a,b\gt 0 a,b>0,则 a + b ≥ 2 a b a+b\ge2\sqrt{ab} a+b2ab

推出 2 a b a + b ≤ a b a b ≤ a b ≤ a + b 2 \frac{2ab}{a+b}\le\frac{ab}{\sqrt{ab}}\le\sqrt{ab} \le\frac{a+b}{2} a+b2abab abab 2a+b
当且仅当 a = b a=b a=b 时等式成立

即证。

这三种平均数各有利弊,但调和平均数受极端值影响较大,更适合评价不平衡数据的分类问题。
3、举例

已知三种模型得到的 P P P R R R 值如下,分别计算三种平均数

P P P R R R X ‾ \overline X X G G G F 1 F_1 F1
algorithm 10.50.40.450.450.44
algorithm 20.70.10.40.270.18
algorithm 30.021.00.510.140.04

可以看出算法3的 P P P 值非常小,我们认为此模型效果不好,但是利用算数平均数和几何平均数来衡量并不能表现出来,只有 F 1 F_1 F1 对极端值比较重视,能够感受到这种变化。

参考
[1]统计学
[2]机器学习基础-模型性能度量

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值