机器学习的评估指标,混淆矩阵、recall、TP,FP等含义

机器学习的评估指标

目录:

  1. 混淆矩阵(confusion matrix)
  2. 准确率(accuracy)
  3. 查准率(precision)
  4. 查全率(recall)
  5. P-R 曲线
  6. F-β 分数

机器学习要建模,需要有指标来衡量模型性能的好坏,即模型的泛化能力,这就是性能度量。通过指标来对比不同模型,从而知道模型的好坏程度,并通过这个指标来进一步调参逐步优化模型。

1、混淆矩阵(confusion matrix)

在二分类的模型中,把预测情况与实际情况的所有结果进行组合,就会有真正 (true positive)、假正 (false positive)、真负 (true negative) 和假负 (false negative) 四种情形,分别由TP、FP、TN、FN 表示(T代表预测正确,F代表预测错误),这四种情形构成了混淆矩阵。

 

举个例子来说明这四项的意思。比如有一个模型检测就诊者是否患有特定疾病。

就诊者患病(实际为Positive):模型诊断为患病时(True),称为真正TP;模型诊断为不患病时(False),称为假负FN。

就诊者不患病(实际为Negative):模型诊断为不患病时(True),称为真负TN;模型诊断为患病时(False),称为假正FP。

所以模型预测错误就有两种情况:假负和假正。对于不同的场景,我们对模型的要求也不同。

  • 对于诊断疾病的模型,假负(把病人诊断为健康,会错过最佳治疗时间比假正情况更严重,所以该模型应该更倾向于找出所有为positive的样本(患病的就诊者);
  • 对于垃圾邮件检测模型,假正(把正常邮件检测为垃圾邮件,会错过重要邮件比假负情况更严重,所以该模型应该更倾向于选出所有为negative的样本(正常邮件)。

针对这两种场景,就需要两个指标,查准率和查全率。

疾病检测模型需要的是高查全率,即尽量不漏过任何一个正样本;垃圾邮件检测模型需要的是高查准率,即尽量不误判任何一个负样本。

2、准确率(accuracy)

先说一些我们最熟悉的准确率,准确率就是正确分类的样本和总样本的比例。

比如这个检测疾病的例子,假设有10000名就诊者,诊断结果如下表所示:

准确率就是TP和TN之和除以总样本数,即 (1000+8000) / 10000 = 90%。

虽然准确率可以判断总的正确率,但是在样本严重不平衡的情况下,并不能作为很好的指标来衡量结果。比如有一个检测垃圾的模型,此时有284335条正常的邮件和472条垃圾邮件,该模型把所有邮件都判断为正常邮件,即没有发现任何垃圾邮件,这时准确率为 284335/284887 = 99.83%。虽然这时的准确率很高,但是该模型没有发现垃圾邮件,所以该模型其实很糟糕。

这时就需要另外两种指标:查准率和召回率。

3、查准率(precision)

查准率也叫精准率,所有预测为positive的样本中,实际为positive的样本的比例:

比如上面那个检测疾病的例子:精度就等于 1000/(1000+800) = 55.7%,该场景要极力避免假负的情况,所以即使该模型查准率不是很高,即假正的情况较多,也可以容忍。

对于邮件模型,需要极力避免假正的情况(将正常邮件误判为垃圾邮件),所以需要其查准率尽可能地高一些。

4、查全率(recall)

查全率也叫召回率,实际为positive的样本中,被正确预测为positive的样本的比例。

 

比如上面那个检测疾病的例子:召回率就等于 1000/(1000+200) = 83.3%,该场景需要尽可能地将患病的人诊断为患病,所以医疗模型需要高召回率,要极力避免假负的情况。

医疗模型的查准率为所有诊断为患病的就诊者中,有多少是真正患病的。

医疗模型的召回率为所有患病的就诊者中,有多少被正确地诊断为患病。

查全率表示对正样本结果中的预测准确程度,而准确率是对所有样本结果的预测准确程度。

5、P-R 曲线

一般来说,查准率高时,查全率往往偏低;而查全率高时,查准率往往偏低。两者的关系可以用一个P-R图来展示(图来自周志华的机器学习):

 正常情况下希望查准率和查全率同时都非常高。但实际上这两个指标是一对矛盾体,无法做到双高。图中明显看到,如果其中一个非常高,另一个肯定会非常低。所以根据实际需求来决定两者的重要程度,比如想要高的查全率,那么就会牺牲一些查准率,反之也一样。

 在两个指标中选较好的模型比较困难,于是使用 Fβ 分数将两个量统一为一个量,我们就可以认为Fβ 分数最高的模型为最佳模型。

 本文转载于这位大佬的,侵删。有需要的可以去原文中看看https://zhuanlan.zhihu.com/p/68473880icon-default.png?t=M276https://zhuanlan.zhihu.com/p/68473880

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值