机器学习之偏斜类误差度量

本文探讨了机器学习中偏斜类问题,即正负样本不平衡导致模型预测偏向某一类。引入了精确率(Precision)和召回率(Recall)作为评估指标,解释了它们的定义及在偏斜类情况下的表现。当面临模型性能评估时,这两个参数可以帮助决策,尤其是在正负样本数量悬殊的场景下。
摘要由CSDN通过智能技术生成

机器学习分类模型存在一种情况叫偏斜类。偏斜类简单理解就是在训练模型时由于正样本和负样本之间的严重不平衡,导致模型最后检测全部都是1或者全部都是0。假设正样本的y值为1,当正样本远远多于负样本的时候,训练好的模型就会一直输出1,这会给我们判断模型优劣带来一定的障碍,比如模型输出1的概率是99.8%,输出0的概率是0.2%,这里我们就会认为模型的精度很好,误差很小。但是其实这种结果是由于数据集的不平衡导致的。因此我们迫切需要一种新方法判断模型的优劣而不仅仅是从accuracy和error。

因此我们接下来引出两个参数一个是precision,另一个是recall。如下图:

这里写图片描述
Actual class是实际的类别,Predicted class是预测的类别。当预测类别和真实类别均为1时为True positive(TP),当真实类为0预测为1则说明预测错误为False positive(FP),当预测为0真实类为1则预测错误为False negative(FN),当预测和真实均为0时说明为True negative(TN)。

假设y=1是要检测的类别:

precision(查准率) =TP / (TP+FP) 查准率是真实类别和预测类别均为1然后除以预测类别为1的总和(红色框框)
Recall(召回率) = TP / (TP+FN) 召回率是真实类别和预测类别均为1除以真实类为1(不管预测对不对,黄色框

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值