- 什么都不做。有时候很幸运,不需要做什么,就可以使用所谓的自然(或分层)分布进行训练。
- 在数据层面上,以某种方法平衡训练集:
- 过度采样少数分类。
- 对多数分类进行抽样。
- 合成新的少数分类。
- 抛弃一定少数分类,转而采用异常检测框架。
- 在算法层面上:
- 调整样本权重(调整错误分类的损失)。
- 调整决策阈值。
- 修改现有算法以对稀有类更敏感。
- 构建一个全新的算法,从而在不平衡数据上表现良好
参考链接:
https://77qingliu.com/2019/03/03/Learning-from-Imbalanced-Classes/