1、样本不均衡定义
样本不均衡是指不同类别的数据量差别较大,利用不均衡样本训练出来的模型泛化能力差且容易发生过拟合
2、样本不均衡处理方法
1、数据层面
①数据样本数量处理
上采样 | 下采样 | |
---|---|---|
样本情况 | 数据量不足 | 数据量充足 |
数据集变化情况 | 增加 | 减少 |
处理手段 | 大量复制少类样本 | 控制量大类的样本数量 |
风险 | 过拟合 |
②数据样本合成
数据合成方法是利用已有样本生成更多的样本。
什么是合成数据?
通过计算机程序生成的不基于任何现实现象或时间的数据。
SMOTE
利用小众样本在特征空间的相似性来生成新样本。
2、算法层面
在目标函数中,增加量少类样本被错分的损失值。准确度在类别不均衡的分类任务中不能正常工作
参考:
[1] https://blog.csdn.net/u013102349/article/details/79309198