样本不均衡对模型的影响

本文探讨了在样本不均衡情况下,SVM和textCNN模型的泛化能力。SVM可能会因负样本过少导致超平面偏向,而CNN对样本不均衡敏感,过采样能改善性能。提出了重采样、扩充数据集、调整分类指标、产生人工数据、尝试不同算法、模型惩罚和转换问题角度等解决办法。
摘要由CSDN通过智能技术生成

在做项目的时候,发现在训练集中,正负样本比例比例在1:7左右,虽然相差不多(但在实际获取的样本比例大概在1:2000左右),所以有必要探讨一下在样本不均衡的情况下,这些训练数据会对模型产生的影响。


在实际的模型选取中,采用了SVM和textCNN这两种模型对文本进行分类,下面分别看一下这两种模型在样本不均衡的情况下,其泛化能力的体现(搜集其他人做过的实验与总结,参考博客附于文章末尾

SVM

理论上来说,SVM实现分类的方法是以支持向量为参照,选取硬间隔最大的超平面,其超平面的选取只与支持向量有关,所以不是很care到底两边还有多少个点但是当一类样本远多于另一类样本时,可见以下图:

假设真实数据集如下:

由于负类样本量过少时,可能会出现下面这种情况:

使得分隔超平面偏向负类。严格意义上,这种样本不平衡不是因为样本数量的问题,而是因为边界点发生了变化。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值