机器学习的评估指标，混淆矩阵、recall、TP,FP等含义

最新推荐文章于 2024-02-16 22:46:53 发布

q1030460485

最新推荐文章于 2024-02-16 22:46:53 发布

阅读量3.8k

点赞数

文章标签：机器学习

原文链接：https://zhuanlan.zhihu.com/p/68473880

版权

机器学习的评估指标

目录：

混淆矩阵（confusion matrix）
准确率（accuracy）
查准率（precision）
查全率（recall）
P-R 曲线
F-β 分数

机器学习要建模，需要有指标来衡量模型性能的好坏，即模型的泛化能力，这就是性能度量。通过指标来对比不同模型，从而知道模型的好坏程度，并通过这个指标来进一步调参逐步优化模型。

1、混淆矩阵（confusion matrix）

在二分类的模型中，把预测情况与实际情况的所有结果进行组合，就会有真正 (true positive)、假正 (false positive)、真负 (true negative) 和假负 (false negative) 四种情形，分别由TP、FP、TN、FN 表示（T代表预测正确，F代表预测错误），这四种情形构成了混淆矩阵。

举个例子来说明这四项的意思。比如有一个模型检测就诊者是否患有特定疾病。

就诊者患病（实际为Positive）：模型诊断为患病时（True），称为真正TP；模型诊断为不患病时（False），称为假负FN。

就诊者不患病（实际为Negative）：模型诊断为不患病时（True），称为真负TN；模型诊断为患病时（False），称为假正FP。

所以模型预测错误就有两种情况：假负和假正。对于不同的场景，我们对模型的要求也不同。

对于诊断疾病的模型，假负（把病人诊断为健康，会错过最佳治疗时间）比假正情况更严重，所以该模型应该更倾向于找出所有为positive的样本（患病的就诊者）；
对于垃圾邮件检测模型，假正（把正常邮件检测为垃圾邮件，会错过重要邮件）比假负情况更严重，所以该模型应该更倾向于选出所有为negative的样本（正常邮件）。

针对这两种场景，就需要两个指标，查准率和查全率。

疾病检测模型需要的是高查全率，即尽量不漏过任何一个正样本；垃圾邮件检测模型需要的是高查准率，即尽量不误判任何一个负样本。

2、准确率（accuracy）

先说一些我们最熟悉的准确率，准确率就是正确分类的样本和总样本的比例。

比如这个检测疾病的例子，假设有10000名就诊者，诊断结果如下表所示：

准确率就是TP和TN之和除以总样本数，即 (1000+8000) / 10000 = 90%。

虽然准确率可以判断总的正确率，但是在样本严重不平衡的情况下，并不能作为很好的指标来衡量结果。比如有一个检测垃圾的模型，此时有284335条正常的邮件和472条垃圾邮件，该模型把所有邮件都判断为正常邮件，即没有发现任何垃圾邮件，这时准确率为 284335/284887 = 99.83%。虽然这时的准确率很高，但是该模型没有发现垃圾邮件，所以该模型其实很糟糕。

这时就需要另外两种指标：查准率和召回率。

3、查准率（precision）

查准率也叫精准率，所有预测为positive的样本中，实际为positive的样本的比例：

比如上面那个检测疾病的例子：精度就等于 1000/(1000+800) = 55.7%，该场景要极力避免假负的情况，所以即使该模型查准率不是很高，即假正的情况较多，也可以容忍。

对于邮件模型，需要极力避免假正的情况（将正常邮件误判为垃圾邮件），所以需要其查准率尽可能地高一些。

4、查全率（recall）

查全率也叫召回率，实际为positive的样本中，被正确预测为positive的样本的比例。

比如上面那个检测疾病的例子：召回率就等于 1000/(1000+200) = 83.3%，该场景需要尽可能地将患病的人诊断为患病，所以医疗模型需要高召回率，要极力避免假负的情况。

医疗模型的查准率为所有诊断为患病的就诊者中，有多少是真正患病的。

医疗模型的召回率为所有患病的就诊者中，有多少被正确地诊断为患病。

查全率表示对正样本结果中的预测准确程度，而准确率是对所有样本结果的预测准确程度。

5、P-R 曲线

一般来说，查准率高时，查全率往往偏低；而查全率高时，查准率往往偏低。两者的关系可以用一个P-R图来展示（图来自周志华的机器学习）：

正常情况下希望查准率和查全率同时都非常高。但实际上这两个指标是一对矛盾体，无法做到双高。图中明显看到，如果其中一个非常高，另一个肯定会非常低。所以根据实际需求来决定两者的重要程度，比如想要高的查全率，那么就会牺牲一些查准率，反之也一样。

在两个指标中选较好的模型比较困难，于是使用 Fβ 分数将两个量统一为一个量，我们就可以认为Fβ 分数最高的模型为最佳模型。

本文转载于这位大佬的，侵删。有需要的可以去原文中看看https://zhuanlan.zhihu.com/p/68473880https://zhuanlan.zhihu.com/p/68473880

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
机器学习的评估指标，混淆矩阵、recall、TP,FP等含义

机器学习的评估指标目录：混淆矩阵（confusion matrix）准确率（accuracy）查准率（precision）查全率（recall） P-R 曲线 F-β 分数机器学习要建模，需要有指标来衡量模型性能的好坏，即模型的泛化能力，这就是性能度量。通过指标来对比不同模型，从而知道模型的好坏程度，并通过这个指标来进一步调参逐步优化模型。1、混淆矩阵（confusion matrix）在二分类的模型中，把预测情况与实际情况的所有结果进行组合，就会有真正 (true p..
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。