因为最近实习需要进行一次技术分享,加上本身研究方向是抽样调查的逆抽样(针对总体中存在数量占比低于10%的稀有单元的情况),所以决定分享一下目前关于不平衡数据集的处理方法~
1、不平衡数据集的概述及出现场景
样本不平衡问题可以大致分为两种:
(1)不同类别中样本数比率不平衡,但这些类别中的样本量都时足够多的;
(2)存在某一类或多个类样本量较少(这种情况只能尽量补充该类的样本)
当处理分类不平衡数据集时,通常更加关注样本量较少的类别,说明模型正确预测少样本类别的能力比正确预测多样本类别更加重要。
例如:在信用卡欺诈检测的数据集中,大多数信用卡交易类型都不是欺诈,仅有很少一部分类型是欺诈交易,但欺诈交易的发生带来的影响是很严重的,因此引人注意
出现的场景:欺诈识别、索赔预测、流失预测、垃圾邮件检测、异常检测、离群值检测……
2、不平衡数据集的本质问题
假设数据集中有两个类: C 0 C_0 C0和 C 1 C_1 C1,其中 C 0 N ( 0 , 4 ) C_0~N(0,4) C0 N(0,4), C 1 N ( 2 , 1 ) C_1~N(2,1) C1 N(2,1),且该数据集中90%的点来自于 C 0 C_0 C0,其余10%来自于 C 1 C_1 C1