机器学习基础 - [第八章：机器学习系统设计]（2）倾斜类的误差评估

Albert_YuHan

于 2019-07-09 17:44:36 发布

阅读量241

点赞数

分类专栏：机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/duan20140614/article/details/95212923

版权

本文探讨了在倾斜类（正负样本不平衡）问题上，使用分类准确率作为评估指标的局限性，并介绍了在倾斜类中更为适用的查准率和召回率。通过癌症分类示例，说明了当正类数量极少时，模型可能过度预测负类，导致高准确率但不可信的结果。查准率定义为预测正类中真正例的比例，召回率则关注实际正类被正确预测的比例。

摘要由CSDN通过智能技术生成

1、在倾斜类上使用分类准确率/或分类误差的问题。

如下面的癌症分类示例，当测试集上只有0.5%的病人是癌症患者时，我们使用训练好的模型可以在测试集上得到99%的准确率（1%的错误率），即模型预测大多数的患者是没有癌症的，明显这种测试结果是不可信的，因为正类的数量太少了，这种正负类示例不均衡的情况称之为倾斜类。
在这里插入图片描述

2、倾斜类的误差评估

当某个类的样本数量比较少的时候，我们评估模型就不能再使用分类准确率或者是错误率等指标。这个时候需要使用使用查准率和召回率这两个指标：
查准率的定义：

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Albert_YuHan 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。