使用过采样或欠采样处理类别不均衡的数据后,如何正确的做交叉验证?

面对类别不均衡问题,忽略会导致模型偏差大,欠采样可能使模型表现不佳。过采样,尤其是SMOTE方法,能提升决策边界,但错误的过采样与交叉验证结合会导致过拟合。正确做法是在每次交叉验证迭代中单独过采样,避免训练和验证集重叠,确保模型泛化能力。
摘要由CSDN通过智能技术生成

使用过采样或欠采样处理类别不均衡的数据后,如何正确的做交叉验证?

当我们遇到数据不均衡的时候,我们该如何做:
忽略这个问题
对占比较大的类别进行欠采样
对占比较小的类别进行过采样
忽略这个问题

如果我们使用不均衡的数据来训练分类器,那么训练出来的分类器在预测数据的时候总会返回数据集中占比最大的数据所对应的类别作为结果。分类器的偏差太大,召回率为零或非常接近零,而真假率为1或非常接近于1,即所有或几乎所有记录被检测为会正常分娩,因此基本没有识别出早产的记录。
在这里插入图片描述

对大类样本进行欠采样

对大类样本进行欠采样。从占比较大的类别下的样本中随机选择 n 个样本,其中 n 的值等于占比较小的类别下的样本的总数,并在训练阶段使用它们,然后在验证中排除掉这些样本。解决了数据类别不均衡的问题,并且提高了模型的召回率,但是,模型的表现并不是很好,相当于一个弱学习器。
在这里插入图片描述
是不是相当于训练了一个弱学习器。

对少数类样本过采样

如果我们在 交叉验证 之前进行过采样会导致 过拟合 的问题。
最简单的过采样方式就是对占比类别较小下的样本进行重新采样,譬如说创建这些样本

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值