1、正负样本不平衡问题如何解决?

1、过采样、欠采样的方式对不平衡的正负样本进行采样。
2、正负样本各自在进行训练时,设置不用的惩罚系数。
3、集成的方式:例如,在数据集中的正、负样本分别为100和10000,比例为1:100。此时可以将负样本(类别中的大量样本集)随机分为100份(当然也可以更多),每份100条数据;然后每次形成训练集时使用所有的正样本(100条)和随机抽取的负样本(100)条形成新的数据集。如此反复可以得到100个训练集和对应的训练模型。
4、若极其不平衡,可以考虑把任务转换成异常检测问题。
5、在评价指标上,选用ROC,AUC等可以无视样本不平衡问题的指标。

这里同时解释下上采样,下采样,欠采样,过采样

上采样和下采样在CNN中,可以理解为放大图片和缩小图片。
所以池化其实可以理解为是下采样。

数据不平衡时,可以使用欠采样和过采样进行解决:
欠采样(undersampling):当数据不平衡的时,比如样本标签1有10000个数据,样本标签0有6000个数据时,为了保持样本数目的平衡,可以选择减少标签1的数据量,这个过程就叫做欠采样。减少样本多的

过采样(oversampling)减少数据量固然可以达到以上效果,并且在一定程度上防止过拟合,但是这也牺牲了数据,因此存在另一种增加样本的采样方法,也就是增加标签0的样本数。增加样本少的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值