评价指标(一)

今天查阅 GEC 文献资料,遇到 F0.5 score,这里记录总结下常见的分类模型评价指标:accuracy(准确率)、F-score、AUC等,其中 F-score 和 AUC 都涉及到 Precision、Recall。

一、accuracy(准确率)

1.1概念

accuracy:指模型预测中,预测对的数量在预测总数量的占比,公式如下:
A c c = n N Acc=\frac{n}{N} Acc=Nn
其中,
n:模型预测对的样本数量(注意:这里是指所有类别模型预测对的数量,要与 precision 区分开);
N:模型预测的总数量。
还可写成2.1节中的方式。

1.2优缺点

优点:

计算简单,能直观反映模型的好坏。

缺点:

当样本类别不均衡时,单纯的 accuracy 不能很好的反映模型的好坏,尤其在如下极端情况:

10000 个样本中,其中一类别 A 数量达到 9990 个,剩下 10 个样本为其它类别,当模型全部预测为 A类别时,其模型accuracy 达到 99.9%。这种情况, accuracy 不能反映模型的好坏。

二、F - score

对于上面出现的 样本类别不均衡 情况,其中一种方法是 F-score,它考虑了两个尺度——Precision、Recall。
注意:Precision、Recall 都是二分类评价指标,在多分类任务中,每类需要转化为 (是、不是),如:多分类任务有 ABC 三类,需要转化为 (是A、不是A)(是B、不是B)(是C、不是C),再去求对应的Precision、Recall 。

2.1 Precision(精确率)和 Recall(召回率)

如下表为 模型预测 情况——两类(P:阳性,N:阴性):

P(真实标签)N(真实标签)
P(模型预测)TP(正确阳性)FP(错误阳性)
N(模型预测)FN(正确阴性)TN(正确阴性)
根据上表,accuracy计算公式也可表示为
$$
Acc = \frac{TP+TN}{TP+FP+FN+TN}
$$

Precision(精确率)

指模型预测样本中,预测对的在该类预测总数量的占比,公式如下:
P = T P T P + F P P = \frac{TP}{TP+FP} P=TP+FPTP

Recall(召回率):

指模型预测样本中,预测对的在该类真实标签总数量的占比,公式如下:
R = T P T P + F N R = \frac{TP}{TP+FN} R=TP+FNTP
Precision 与 Recall 是一对相矛盾的评价指标。想要 Precision 增加,模型会尽可能预测正确,这样使得模型预测的范围小(尽可能放弃不确定的样本,这样 Recall 会降低);相反,想要 Recall 增加,模型会尽可能预测全部范围,这样使得模型预测的难度加大(Precision 会降低)

2.2 F - score

F - score 是调和 Precision 与 Recall 的一类评价指标,其中常用的有 F1 - score 、F0.5 - score 和 F2 - score。
F - score的计算公式为:
F − s c o r e = ( 1 + α 2 ) P ∗ R α 2 ∗ P + R F - score = (1+\alpha^2)\frac{P*R}{\alpha^2*P+R} Fscore=(1+α2)α2P+RPR

2.2.1 F1 - score 、F0.5 - score 和 F2 - score

α = 1 \alpha=1 α=1时,即为 F1 - score,是 Precision 与 Recall 的调和平均(Precision 与 Recall 同等重要

α = 0.5 \alpha=0.5 α=0.5时,即为 F0.5 - scorePrecision 比 Recall 重要

α = 2 \alpha=2 α=2时,即为F2 - scoreRecall 比 Precision 重要

2.2.2 例子

模型A的P=0.8,R=0.7:
根据 2.2.1 中的结论,可得出:
α = 2 \alpha=2 α=2,Recall 更重要,而 P>R,故 F2 - score<F1 - score;
α = 0.5 \alpha=0.5 α=0.5,Precision 更重要,而 P>R,故 F0.5 - score>F1 - score;

而根据公式:
F 1 − s c o r e A = ( 1 + 1 2 ) 0.8 ∗ 0.7 1 2 ∗ 0.8 + 0.7 = 1.12 1.5 ≈ 0.7467 F1-score_A=(1+1^2)\frac{0.8*0.7}{1^2*0.8+0.7}=\frac{1.12}{1.5}\approx0.7467 F1scoreA=(1+12)120.8+0.70.80.7=1.51.120.7467
F 0.5 − s c o r e A = ( 1 + 0. 5 2 ) 0.8 ∗ 0.7 0. 5 2 ∗ 0.8 + 0.7 = 2.8 3.6 ≈ 0.7778 F0.5-score_A=(1+0.5^2)\frac{0.8*0.7}{0.5^2*0.8+0.7}=\frac{2.8}{3.6}\approx0.7778 F0.5scoreA=(1+0.52)0.520.8+0.70.80.7=3.62.80.7778
F 2 − s c o r e A = ( 1 + 2 2 ) 0.8 ∗ 0.7 2 2 ∗ 0.8 + 0.7 = 2.8 3.9 ≈ 0.7179 F2-score_A=(1+2^2)\frac{0.8*0.7}{2^2*0.8+0.7}=\frac{2.8}{3.9}\approx0.7179 F2scoreA=(1+22)220.8+0.70.80.7=3.92.80.7179
可得: 0.7179 < 0.7467 < 0.7778 0.7179 <0.7467<0.7778 0.7179<0.7467<0.7778,即 F 2 − s c o r e A < F 1 − s c o r e A < F 0.5 − s c o r e A F2-score_A < F1-score_A<F0.5-score_A F2scoreA<F1scoreA<F0.5scoreA,与结论一致。

2.2.3 总结

倾向于 Precision 的分类任务场景下,常使用 F0.5 - score,或 α < 1 \alpha<1 α<1的其它值;
倾向于 Recall 的分类任务场景下,常使用 F2 - score,或 α > 1 \alpha>1 α>1的其它值;
Precision 与 Recall 同等重要的分类任务场景下,常使用 F1 - score。

  • 6
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值