不平衡学习方法
机器学习中样本不平衡问题大致分为两方面:
(1)类别中样本比率不平衡,但是几个类别的样本都足够多;
(2)类别中某类样本较少。
对第二个问题,其实不是我们重点,因为样本不足的话,覆盖空间是很小,如果特征足够多的话,这种数据对模型学习的价值也不大,所以,对这个问题,好的方法只能是找尽量多的小类样本来覆盖样本空间。
现在主要讨论第一个问题。
一: 采样方法
1. 随机重采样(random oversampling):
样本不平衡时候,对小类样本就行随机重采样,以达到平衡。这种方法只是对小类样本进行简单的拷贝,缺点是容易over-fit,比如在决策树分类的时候,很有可能一个终端叶子节点的样本都是一个样本的拷贝而已,扩展性不足,这可能会提高模型训练的精度,但是对未知测试样本的预测可能是很差的。
2. 随机欠采样(random oversampling):
样本不平衡时候,对大类样本就行随机欠采样,就是取部分大类样本,以达到平衡。欠采样的问题是对样本减少可能会缺失样本空间中重要数据,降低准确性。
3. Synthetic Sampling with Data Generation
对小类样本进行近似数据样本生成。对小类样本计算KNN,找出K个相近样本,根据K