解决类不均衡的几种方法
欠采样
- 对于训练集中样本数量较大的数据进行少量采样,尽量使正负样本数量均衡。
- 但是这样也会造成一定的问题:减少了采样的数量有可能会导致对多数类的学习不能达到目标。
过采样
- 增加训练集中样本数量较少的数据,如进行重复采样。
- 由于对少数类进行了重复采样,有可能导致训练产生过拟合现象同时也会导致训练更加复杂
调整权重
- 增加少数类的权重,减小多数类的权重,
- 这个方法的难点就是设置合理的权值
focal loss
- 通过调整α, γ的值,来减小简单样本的损失,来提高困难样本对梯度的贡献。
模型融合
- 将数据集拆分为多个样本均衡的小数据集,分别进行训练。将训练的结果加权融合,这个过程可以通过训练来得到最优的加权方式