每天五分钟机器学习:评估指标之查准率和召回率

本文介绍了偏斜类问题在机器学习中的影响,特别是数据不平衡导致的评估误差。通过查准率和召回率这两个指标,可以更准确地评估分类模型在偏斜数据集上的性能。查准率是预测为正类中实际为正的比例,召回率是实际正类被正确预测的比例。对于预测肿瘤恶性的例子,仅依赖错误率可能误导,而查准率和召回率能提供更全面的评估。
摘要由CSDN通过智能技术生成

本文重点

在上一节课程中,我们学习了准确率(或者说错误率)。分类错误率并不是对所有情况都合适的误差度量值,不同的情况要使用一个合适的数值评估值,有一种情况就是偏斜类的问题,什么是偏斜类的问题呢?下面就开始来讲解这个问题。

什么是偏斜类?

偏斜类问题可以看作是数据不平衡的问题,偏斜类情况表现为训练集中有非常多的同一种类的实例,只有很少其他类的实例,这个就是偏斜类问题,那么这种问题会对我们的算法的误差值度量造成什么影响呢?

偏斜类的实例

用算法来预测癌症是否是恶性的,我们训练一个逻辑回归模型,假设我们使用验证集来检验了这个分类的模型,我们发现它的错误率只有1%,这个看起来还是不错的。但是我们发现了在我们的测试集中其实只有0.5%的患者得了癌症,那么可以说这个1%的错误率就不算是那么好了。

这种数据集中样本y=1(有癌症),y=0(没有癌症)样本相比非常少,我们称这种情况为偏斜类,如果模型通过总是预测y=0算法表现的会很好,假设我们编写一个非学习而来的算法,在所有情况下都预测肿瘤是良性的,那么误差只有 0.5%。因此直接使用分类误差(错误率)或者分类精确度(1-错误率)来作为评估度量可能会产生问题。

偏斜类的问题

现在假如有一个算法模型的准确度99%,现在将算法改进,改进之后的算法变成了99.5%的精确度,那么这是不是一个算法的提升呢?

从数值评估的角度来看算是一个算法的提升,

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

幻风_huanfeng

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值