1.扩大数据集
2.换评价指标
对于样本不均衡的数据来说,用精度来评估模型好坏是存在偏差的,因为它只反映了预测正确的结果如何,不能反映预测错误的情况。用“召回率(Recall)”、“精确率(Precision)”和“综合评价指标(F-Mmeasure)”来评估模型。
3.数据集重采样
上采样(过抽样,增少):让正反例样本一样多,通常是对较少的数据进行数据生成,让其与较多的数据一样多。如可采用在少数类中加入随机噪声、干扰数据或通过一定规则产生新的合成样本,例如SMOTE算法,来生成数据,注意:生成数据仅对训练数据进行生成。
下采样(欠抽样,减多):让正反例样本一样少,通常是对较多的数据进行随机采样,让其与较少的数据一样少。对于下采样来说,通常的模型训练方式是将下采样的数据进行交叉验证训练模型,注意:需用原始数据集的测试数据进行模型测试。
from imblearn.over_sampling import SMOTE # 过抽样处理库SMOTE
from imblearn.under_sampling import RandomUnderSampler # 欠抽样处理库RandomUnderSam