机器学习——样本不均衡的处理方式

版权声明:本文为博主辛苦码出来滴~,才疏学浅,如有不对尽请指正,未经博主允许不得转载。

本片博文主要是对机器学习的分类问题中存在的样本不均衡情况的处理说明,具体如下:
当对数据进行分类训练的时候,有时候会出现原始数据样本不均衡的情况,也就是正例与反例样本数量存在差异。此时为了能够更好的训练模型,需要对原始数据进行“过采样”或“下采样”来使得训练数据分布均衡。建议采用过采样
过采样:让正反例样本一样多,通常是对较少的数据进行数据生成,让其与较多的数据一样多。如可采用SMOTE样本生成策略生成数据,注意:生成数据仅对训练数据进行生成。
在这里插入图片描述
下采样:让正反例样本一样少,通常是对较多的数据进行随机采样,让其与较少的数据一样少。对于下采样来说,通常的模型训练方式是将下采样的数据进行交叉验证训练模型,注意:需用原始数据集的测试数据进行模型测试。

对于样本不均衡的数据来说,用精度来评估模型好坏是存在偏差的,因为它只反映了预测正确的结果如何,不能反映预测错误的情况,对于错误分类来说又分为过检漏检

例如:对于商品检测来说,如果我们的目的是检测次品(正例)的商品,那么此时的 过检 即本来是正品预测为次品,漏检 即本来是次品预测为正品。

预测为反例 预测为正例
反例(Negatiave) TN FP
正例(Positive) FN TP

在这里插入图片描述
如果预测结果全为正品,则准确率为99%,此时的准确率
A c c u r a c y = T P + T N T P + F N + T N + F

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值