机器学习中样本比例不平衡的处理方法

类别不平衡(class-imbalance)是指分类任务中不同类别的训练样例数差别很大的情况。例如有990个正类,10个反例,那么学习方法只需要返回一个永远预测为正类的分类器就可以达到99%的精度。然而这样的学习器是没有价值的,因为它预测不出任何反例。

  • 样本比例不平衡,这种现象多是由于数据来源本身造成,如征信问题中往往正样本多。

  • 即使原始问题中不同类别的训练样例数目相当,在使用OvR策略后产生的二分类任务仍可能出现类别不平衡现象。

解决方法 1 :再缩放(rescaling)

  • 欠采样(undersampling)
  • 过采样(oversampling)
  • 阈值转移(threshold-moving)

解决方法 2 :使用其他分类性能度量指标

  • 正确率
  • 召回率
  • ROC曲线、AUC

解决方法 3 :基于代价函数的分类器就决策控制

  • 代价敏感的学习,增大样本数较少类别的样本的权重,当这样的样本被误分时,其损失值要乘上相应的权重,从而让分类器更加关注这一类数目较少的样本

解决方法 4 :搜集更多的数据

搜集更多的数据,从而让正负样本的比例平衡。需要注意的是,当搜集数据的场景本来产生数据的比例就是不平衡时,这种方法并不能解决数据比例不平衡问题。

或者采用合成样本。

《机器学习》 P66 3.6

《Machine Learning in Action》 P127 7.7

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值