问题定义:
正负样本比例为100:1 甚至1000:1,需要在分布如此不均匀的数据集中学习到有用信息。
危害:
造成分类器在多数类精度较高,少数类的分类精度很低。以最大分类精度为目标,导致算法提高多数样本分类精度而忽略小样本的预测精度。
原因:以逻辑回归为例,以优化总体精度为目标,不同类别的误分类情况产生的误差相同,考虑一个500:1的数据集的话传统学习算法在不平衡数据集中会有较大局限性。(因此可以通过加大少数样本权值的方式,权值可以取样本个数的倒数)
解决方案:
1、重构数据集:欠采样&过采样
1)欠采样:
a.随机欠采样。
从多数类中随机选择少量样本再合并原有少数类样本作为新的训练数据集。分为有放回和无放回两种。无放回欠采样在多数类被采样后不会再被重复采 样。
缺点:易丢失多数类的重要信息。