参考:知乎专栏
项目中出现了二分类数据不平衡问题,研究总结下对于类别不平横问题的处理经验:
1:为什么类别不平衡会影响模型的输出:
许多模型的输出类别是基于阈值的,例如逻辑回归中小于0.5的为反例,大于则为正例。在数据不平衡时,默认的阈值会导致模型输出倾向与类别数据多的类别。
因此可以在实际应用中,解决办法包括:
1)调整分类阈值,使得更倾向与类别少的数据。
2)选择合适的评估标准,比如ROC或者F1,而不是准确度(accuracy)
3)过采样法(sampling):来处理不平横的问题。分为欠采样(undersampling)和过采样(oversampling)两种,
过采样:重复正比例数据,实际上没有为模型引入更多数据,过分强调正比例数据,会放大正比例噪音对模型的影响。
欠采样:丢弃大量数据,和过采样一样会存在过拟合的问题。
由于随机过采样采取简单复制样本的策略来增加少数类样本,这样容