类不平衡(Class Imbalance)是指在分类问题中,不同类别之间的样本数量存在显著差异的情况。例如,在信用卡欺诈检测任务中,欺诈行为的样本数量远远少于正常交易的样本数量。类不平衡问题可能导致分类器在训练过程中过于关注数量较多的类别,从而在预测较少的类别时表现不佳。
类不平衡方法(Class Imbalance Methods)是一类用于处理类不平衡问题的技术,它们可以分为以下几类:
- 重采样方法(Resampling methods):通过对原始数据集进行操作,以平衡各类别样本数量。常见的重采样方法包括:
- 过采样(Oversampling):增加数量较少的类别的样本。例如,通过复制少数类别的样本或生成少数类别的合成样本(如使用SMOTE算法)。
- 欠采样(Undersampling):减少数量较多的类别的样本。例如,随机移除多数类别的样本,使其数量接近少数类别的样本数量。
-
损失函数调整(Cost-sensitive methods):在训练过程中为不同类别的样本赋予不同的权重,使模型更关注数量较少的类别。例如,可以通过为少数类别的样本赋予较大的权重,以弥补类别不平衡带来的影响。
-
集成方法(Ensemble methods):构建多个基本分类器,并将它们的预测结果综合起来,以获得更好的性能。常见的集成方法包括:
- Bagging:通过有放回地随机抽取训练样本,构建多个基本