1.对大类数据降采样
减少大类数据样本个数,使与小样本个数接近。 缺点:欠采样操作时若随机丢弃大类样本,可能会丢失重要信息。 代表算法:EasyEnsemble。其思想是利用集成学习机制,将大类划分为若干个集合供不同的学习器使用。相当于对每个学习器都进行欠采样,但对于全局则不会丢失重要信息
2. 对小类数据过采样
3. 增加小类样本数据
4. 数据代价加权
5. 使用一些对样本分布不敏感的评价指标,F1,ROC等
例如当分类任务是识别小类,那么可以对分类器的小类样本数据增加权值,降低大类样本的权值,从而使得分类器将重点集中在小类样本身上。
6.尝试不同的算法,尤其是决策树类(对不平衡数据表现不错),还有就是集成方法