【070】数据不平衡

内容目录

一、工作中数据不均衡问题二、数据不平衡解决方案1、数据不平衡解决方案一2、数据不平衡解决方案二3、数据不平衡解决方案三4、数据不平衡解决方案四5、数据不平衡解决方案五6、数据不平衡解决方案六7、数据不平衡解决方案七8、数据不平衡解决方案八三、如何选择采样方式原文见公众号:python宝

一、工作中数据不均衡问题

  在实际工作中,数据往往分布得非常不均匀,也就是会出现“长尾现象”,即:绝大多数的数据在一个范围/属于一个类别,而在另外一个范围或者另外一个类别中,只有很少的一部分数据。那么这个时候直接使用机器学习可能效果会不太好,所以这个时候需要我们进行一系列的转换操作。

 实际怎么去解决数据不平衡呢?

  • 上采样、下采样、SMOTE算法。

  实际解决的效果如何?

  • 有一点点改进,但不是很大。

  • 事实上确实如此,很多时候即使用了上述算法对采样的数据进行改进,但是结果反而可能更差。在业界中,对数据不均衡问题的处理确实是一件比较头疼的问题。最好的处理方法还是:尽可能去获得更多的那些类别比较少的数据。

二、数据不平衡解决方案

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值