1.改变数据集规模
增加小类样本+减少大类样本
2.更换评价指标
准确度+召回率+F1值+ROC曲线
3.数据集重采样
小类样本过采样+大类样本欠采样
4.生产人工数据
SMOTE过采样算法
5.更换分类算法
决策树往往在类别不均衡数据上表现不错。
6.对模型惩罚
小类样本数据增加权值,降低大类样本的权值
7.业务理解角度
异常点检测+变化趋势检测
8.集成方式
boosting算法,训练多个分类器,分类器进行联合分类
其他角度:
设超大类中样本的个数是极小类中样本个数的L倍,那么在随机梯度下降(SGD,stochastic gradient descent)算法中,每次遇到一个极小类中样本进行训练时,训练L次。
一个相关的想法是,在神经网络中,随机选择部分隐藏层单元来继续训练。