一文看懂机器学习-样本不均衡问题

这里简单以二分类问题说明,如果正负样本比例为1:100,这样的比例是必须得考虑的问题,也得解决样本不均匀的问题,否则训练出来的模型会具有偏向性。例如:样本中有980个正样本,20个负样本,这样模型只需要输出结果为正样本,就可以达到99.8%的正确率,但是这样的模型是没有意义的,不具备泛化性。
常用的处理方式:

  1. 欠抽样:将样本较多的一类,删除样本,其实二类样本数量基本保证一致,无明显差异,但是这样会造成样本的信息损失,影响模型的性能;
  2. 过抽样:增加扩展样本较少的一类,两类样本数量基本达到一致,但是需要重新收集数据,或生成相应数据,或使用算法生成,如果原有样本处于该分类边缘,生成的样本也会处于边缘,会出现解释性差的问题;
  3. 组合、集成:将样本数量较多的一类,然后平均分为几等份,每一等份的数量大致就为样本数量较小的一类的数量,然后将等等分的数据样本于数量较小的这一类数据进行组合,然后分别构建模型,最后每个模型都会获得结果,对这些结果进行投票选择或加权投票;
  4. 单分类:代表算法就为one-class SVM,核心思想就是预测样本是不是符合正类的特征,符合就认为是正类,反之就认为不是正类(到底是不是负类,模型不知道),与二分类的差别就是,二分类模型不仅知道是不是正类,也知道是不是负类。
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值