数据非平衡问题(in-balance)
很多应用中,正负样本是非均衡的,大多数对模型对正负样本比例是敏感的。对训练数据要尽可能的调整至平衡,对分类性能评估也要注意采用特定的方法。
改造分类器的训练数据 —— 过抽样或者欠抽样
具体来说,正负样本失衡的处理方法如下:
- 负样本 >> 正样本,且量都挺大: 对负样本 欠采样undersampling
- 负样本 >> 正样本,量都不大=>
- 采集更多的数据
- 负样本欠采样,正样本过采样oversampling(图像中镜像,旋转等也算)
- 修改损失函数,给正样本更大的权重。
代价敏感的学习(cost-sensitive learning)
非均衡分类的性能度量:混淆矩阵,ROC曲线
分类性能度量指标:正确率,召回率及AUC