常见模型评价标准

前言

在机器学习和数据科学中,模型的性能评估是至关重要的环节。不同的应用场景可能需要不同的评价指标,以确保模型的预测能力符合实际需求。本篇文档旨在介绍几种常用的模型评价标准,包括准确率(Accuracy)、精确率(Precision)、召回率(Recall)以及 F1_Score 。通过了解这些指标的定义和应用场景,我们可以更好地选择合适的指标来评估和优化模型,避免因数据集不平衡或其他因素导致的误导性结论。

模型评价标准

在这里插入图片描述

图片来源:https://en.wikipedia.org/wiki/Precision_and_recall

缩写含义:

  • TP: True Positive
  • TN: True Negative
  • FP: False Positive
  • FN: False Negative

Accuracy(准确率)

是指分类器正确分类的样本数量与总样本数量的比例
A c c u r a c y = T P + T N T P + T N + F P + F N Accuracy=\frac{TP+TN}{TP+TN+FP+FN} Accuracy=TP+TN+FP+FNTP+TN

Accuracy 对于不平衡数据集可能是一个误导性的指标。考虑一个样本,其中有95个负值和5个正值。在这种情况下,将所有值分类为负值会得到0.95的准确率分数。

有许多指标不会受到这个问题的影响。例如,平衡准确率(bACC)通过分别将真正例和真反例的预测值除以正负样本的数量,并将它们的和除以2来进行规范化:
B a l a n c e d   a c c u r a c y = T P R + T N R 2 T P R = T P T P + F N T N R = T N T N + F P Balanced \ accuracy=\frac{TPR+TNR}{2} \\ TPR=\frac{TP}{TP+FN} \\ TNR=\frac{TN}{TN+FP} Balanced accuracy=2TPR+TNRTPR=TP+FNTPTNR=TN+FPTN
对于之前的例子(95个负样本和5个正样本),将所有样本都分类为负样本得到的平衡准确率得分为0.5(最大bACC得分为1),这相当于在平衡数据集中随机猜测的期望值。平衡准确率可以作为一个模型的整体性能指标,无论真实标签在数据中是否不平衡,假设FN的代价与FP相同。

Precision(精确率)

是指分类器预测为正例的样本中真正为正例的样本数占预测为正例的样本数的比例。
P r e c i s i o n = T P T P + F P Precision=\frac{TP}{TP+FP} Precision=TP+FPTP

Recall(召回率)

是指分类器预测为正例的样本中真正为正例的样本数占实际为正例的样本数的比例。
R e c a l l = T P T P + F N Recall=\frac{TP}{TP+FN} Recall=TP+FNTP

R e c a l l = T P R Recall = TPR Recall=TPR

F1 Score

传统的 F-measure 或平衡 F-score(F1 分数)是精确率和召回率的调和平均值:
F 1 = 2 × p r e c i s i o n × r e c a l l p r e c i s i o n + r e c a l l F_{1}=2 \times \frac{precision \times recall}{precision+recall} F1=2×precision+recallprecision×recall


问: Accuracy、Precision、Recall 一样吗?

不一样。
Accuracy 表示分类器总体的分类准确度,而 Precision 和 Recall 则分别强调分类器在预测正例时的准确性和分类器对真正例的识别能力。在不同场景下,优化的目标也不同。例如,在垃圾邮件分类中(P=垃圾邮件,N=正常邮件),我们更关心 Precision,因为误判一封正常邮件为垃圾邮件的代价更高。而在新冠检测中(P=阳性,N=健康),我们更关心 Recall,因为漏诊一位患者的代价更高。


如果觉得这篇文章有用,就给个👍和收藏⭐️吧!也欢迎在评论区分享你的看法!


参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值