定义:
在分类任务中,不同数目的训练样本例数据差距很大的情况
假如类别数量设定是正例,类别不平衡时为正例,其中m+,是正例数目,m-是反例数目。
解决方法:
1.在训练样本中,将反例样本进行欠采样,使正反样本数接近,然后再进行学习;
2.在训练样本中,对正例样本进行过采样,是正反样本数接近,然后进行学习;
3.对分类器的判定标准进行“阈值移动”,即,判别准则变为:
注意:
1.欠采样会使训练数据集变小,过采样会使数据集变大,所以两者计算开销是不同的;
2.不能简单的对数目少的样本进行简单的重复采样,不然会导致严重的过拟合;代表性算法是SMOTE,通过对训练样本里数目少的样本数进插值来产生额外的样本数;
3.不不能随机的对数目多的样本进行丢弃,这可能会导致一些重要的信息丢失。代表性算法是EasyEnsemble,利用集成学习机制,将样本数目多的划分为若干个集合供不同的学习器使用,这样对每一个学习器都进行了欠采样,但对全局来说不会丢失重要的信息;