机器学习实战笔记之非均衡分类问题

本文探讨了非均衡分类问题,当正例与反例数量不一致时,传统准确率评估不再适用。介绍了TP、FP、FN、TN的概念,并详细阐述了正确率(精确率)和召回率的定义及其关系。此外,提到了F-Score作为综合衡量指标,并提及ROC曲线和AUC在评估中的作用。
摘要由CSDN通过智能技术生成

通常情况下,我们直接使用分类结果的错误率就可以做为该分类器的评判标准了,但是当在分类器训练时正例数目和反例数目不相等时,这种评价标准就会出现问题(比如我们有1000个正例,10个负例,此时预测中500个正例被预测正确,10个负例也被预测为正例,那么准确率为500/510,非常高,但是召回率只有500/1000=50%,非常低。)。这种现象也称为非均衡分类问题。此时有以下几个衡量标准。

下面首先通过一副图来说明TP,FP,FN和TN的概念:


从图中可以看出形象的解释就是TP为预测为1而真实情况也为1的样本数量,FP为预测为1而真实情况为0的样本数量,FN为预测为0而真实情况为1的样本数量,TN为预测为0而真实情况为0的样本数量。

(1)   正确率<precise>和召回率<Recall>

              如下图所示:其中准确率指预测的真实正例占所有预测为正例的比例,等于TP/(TP+FP),而召回率指预测的真实正例占所有真实正例的比例,等于TP/(TP+FN),在检索系统中称为查全率。通常我们可以很容易的构照一个高正确率或高召回率的分类器,但是很难同时保证两者成立。如

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值