神经网络训练数据分布不均处理方法

1、样本不均衡定义

样本不均衡是指不同类别的数据量差别较大,利用不均衡样本训练出来的模型泛化能力差且容易发生过拟合

2、样本不均衡处理方法

1、数据层面

①数据样本数量处理

上采样下采样
样本情况数据量不足数据量充足
数据集变化情况增加减少
处理手段大量复制少类样本控制量大类的样本数量
风险过拟合

②数据样本合成

数据合成方法是利用已有样本生成更多的样本。

什么是合成数据?

通过计算机程序生成的不基于任何现实现象或时间的数据。

SMOTE

利用小众样本在特征空间的相似性来生成新样本。

2、算法层面

在目标函数中,增加量少类样本被错分的损失值。准确度在类别不均衡的分类任务中不能正常工作

参考:
[1] https://blog.csdn.net/u013102349/article/details/79309198

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值