内容目录
一、工作中数据不均衡问题二、数据不平衡解决方案1、数据不平衡解决方案一2、数据不平衡解决方案二3、数据不平衡解决方案三4、数据不平衡解决方案四5、数据不平衡解决方案五6、数据不平衡解决方案六7、数据不平衡解决方案七8、数据不平衡解决方案八三、如何选择采样方式原文见公众号:python宝
一、工作中数据不均衡问题
在实际工作中,数据往往分布得非常不均匀,也就是会出现“长尾现象”,即:绝大多数的数据在一个范围/属于一个类别,而在另外一个范围或者另外一个类别中,只有很少的一部分数据。那么这个时候直接使用机器学习可能效果会不太好,所以这个时候需要我们进行一系列的转换操作。
实际怎么去解决数据不平衡呢?
上采样、下采样、SMOTE算法。
实际解决的效果如何?
有一点点改进,但不是很大。
事实上确实如此,很多时候即使用了上述算法对采样的数据进行改进,但是结果反而可能更差。在业界中,对数据不均衡问题的处理确实是一件比较头疼的问题。最好的处理方法还是:尽可能去获得更多的那些类别比较少的数据。