#以二分类为例
1、什么是数据不平衡
数据不平衡往往指的是数据集中分类不平衡,A类与B类占比相差较大。
这时候的模型训练出来往往会偏向比例多的一类
2、数据处理方法
1)、增加低比例样本;
1、对低比例进行过采样
2、对低比例类,选取k点,以其均值或众数进行数据生成
3、smote算法
2)、减少高比例样本
1、欠采样
3)、算法
1、修改算法的阈值,比如将比例多的类别阈值划分到0.7;
3、不平衡数据评价标准
不能使用准确率,因为即使模型全部预测占比多的类别,准确率也会比较高;
建议使用ROC曲线面试,PR曲线面积
Precision@n,特制将分类阈值设定得到恰好与测试集中的正例个数相同时分类器的precision
4、简单通用
bagging,boost聚合模型,+阈值调整