问题描述:
工作中处理分类问题时,很多情况是多个分类类别的数据分布不平衡,有的类别的数据量可能远小于其他类别。并且在实验中发现,进行分类模型训练时,各类别的数据比例不同对最终模型分类效果的影响很大。
解决方法:
对于这类问题,主要从数据和学习两个角度进行处理。训练集大小,类优先级,误分代价几个重要影响因素需要重点处理。
从数据角度:训练集重采样,训练集划分;
从学习算法角度:分类器集成,代价敏感学习,特征选择方法;
相关知识点:
重采样:随机向上/向下采样;SMOTE采样
集成算法:SMOTEBoost,AdaCost
不平衡分类评价指标:
传统的F1值,准确率p,召回率r;
F=(1+B)^2.p.r/(B^2.r+p)
G-mean=sqrt(TP/(TP+FN)*TN/(TN+FP))