什么是数据不平衡问题,应该如何解决

数据不平衡又称样本比例失衡,比如二分类问题,如果标签为1的样本占总数的99%,标签为0的样本占比1%则会导致判断「失误严重」,准确率虚高。

常见的解决不平衡问题的方法如下。

  1. 「数据采样」
    数据采样分为上采样和下采样,上采样是将少量的数据通过重复复制使得各类别比例均衡,不过很容易导致过拟合问题,所以需要在新生成的数据中加入随机扰动。
    下采样则相反,下采样是从多数类别中筛选出一部分从而使得各类别数据比例维持在正常水平,但容易丢失比较重要的信息,所以应该多次随机下采样。
  2. 「数据合成」是利用已有样本的特征相似性生成更多的样本。
  3. 「加权」是通过不同类别的错误施加不同的权重惩罚,使得ML时更侧重样本较少并容易出错的样本。
  4. 「一分类」
    当正负样本比例失衡时候,可以利用One-class SVM,该算法利用「高斯核函数」将样本空间映射到「核空间」,在核空间找到一个包含「所有数据」的高维球体。如果测试数据位于这个高维球体之「中」,则归为多数类,否则为少数类。
微信搜索: 我们都是码农,点个关注不迷路啦!
  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值