样本层面 欠采样和过采样 欠采样:随机删除一些类别多的数据,但是会改变数据分布,减少信息。 目前比较好的方法是将欠采样应用到集成学习中,即对正例进行多次欠采样,将其分成n份,之后配以反例,从而形成多组正例/反例数据集,供多个学习器使用。这样看来,每个学习器都采用了欠采样,但是在全局看来不会丢失重要信息。过采样:把类别少的数据通过复制或生成SMOTH的方法变多,也可用数据增强的方法去做。 数据增强 根据现有数据,合成新数据: 对句子中的单词,短语,句子结构做一些更改,保留原始语义 损失函数层面 Focal Loss:惩罚把少样本分错的行为,让模型更多关注少样本,一般只有微小的提升。