每天五分钟机器学习：评估指标之查准率和召回率

最新推荐文章于 2023-12-23 18:43:21 发布

幻风_huanfeng

最新推荐文章于 2023-12-23 18:43:21 发布

阅读量264

点赞数

分类专栏：每天五分钟玩转机器学习算法文章标签：机器学习算法人工智能神经网络深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/huanfeng_AI/article/details/127580933

版权

每天五分钟玩转机器学习算法专栏收录该内容

157 篇文章 27 订阅 ¥29.90 ¥99.00

订阅专栏

本文介绍了偏斜类问题在机器学习中的影响，特别是数据不平衡导致的评估误差。通过查准率和召回率这两个指标，可以更准确地评估分类模型在偏斜数据集上的性能。查准率是预测为正类中实际为正的比例，召回率是实际正类被正确预测的比例。对于预测肿瘤恶性的例子，仅依赖错误率可能误导，而查准率和召回率能提供更全面的评估。

摘要由CSDN通过智能技术生成

本文重点

在上一节课程中，我们学习了准确率（或者说错误率）。分类错误率并不是对所有情况都合适的误差度量值，不同的情况要使用一个合适的数值评估值，有一种情况就是偏斜类的问题，什么是偏斜类的问题呢？下面就开始来讲解这个问题。

什么是偏斜类？

偏斜类问题可以看作是数据不平衡的问题，偏斜类情况表现为训练集中有非常多的同一种类的实例，只有很少其他类的实例，这个就是偏斜类问题，那么这种问题会对我们的算法的误差值度量造成什么影响呢？

偏斜类的实例

用算法来预测癌症是否是恶性的，我们训练一个逻辑回归模型，假设我们使用验证集来检验了这个分类的模型，我们发现它的错误率只有1%，这个看起来还是不错的。但是我们发现了在我们的测试集中其实只有0.5%的患者得了癌症，那么可以说这个1%的错误率就不算是那么好了。

这种数据集中样本y=1（有癌症），y=0（没有癌症）样本相比非常少，我们称这种情况为偏斜类，如果模型通过总是预测y=0算法表现的会很好，假设我们编写一个非学习而来的算法，在所有情况下都预测肿瘤是良性的，那么误差只有 0.5%。因此直接使用分类误差（错误率）或者分类精确度（1-错误率）来作为评估度量可能会产生问题。

偏斜类的问题

现在假如有一个算法模型的准确度99%，现在将算法改进，改进之后的算法变成了99.5%的精确度，那么这是不是一个算法的提升呢？

从数值评估的角度来看算是一个算法的提升，

了解本专栏

幻风_huanfeng

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
每天五分钟机器学习：评估指标之查准率和召回率

偏斜类问题可以看作是数据不平衡的问题，偏斜类情况表现为训练集中有非常多的同一种类的实例，只有很少其他类的实例，这个就是偏斜类问题，那么这种问题会对我们的算法的误差值度量造成什么影响呢？以上就是查准率和召回率的计算方式，对于我们刚才那个总是预测病人肿瘤为良性的非学习算法，其查全率是 0（真阳性个数为0），所以那个算法我们可以通过查全率这个数值评估确定不是一个好的算法。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

幻风_huanfeng 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。