什么是数据不均衡问题这里简单说明一下,重点是操作和应用:1、数据不均衡问题2、常见的解决方法函数说明准备工作功能说明参数说明参数完整代码效果展示总结
什么是数据不均衡问题
详细说明,请参考:https://blog.csdn.net/Yaphat/article/details/60348946
这里简单说明一下,重点是操作和应用:
1、数据不均衡问题
在大部分情况下,我们认为不同类别的数据是均匀分布的,很多算法也是基于这个假设,但是在真实的情况下,往往都不是如此的。例如,机器发送故障的情况是我们想要预测的,但实际上故障的概率是很低的,所以导致故障的样本量很少,即使你将所有的预测结果都设置为正常,准确率依然很高,但这个模型是一个没有用的模型,这种类似的例子是非常常见的。
2、常见的解决方法
解决的方案很多,主要从两个方面考虑(面试的时候可能会问)
1)数据层面
2)算法层面
在项目中,我们可能没那么多时间去思考从算法方面去解决,更多的时候想的是能用就行,但是网上很多的例子很多是基于内置的数据,这是非常让人难受的,或者是基于一张图片进行数据增强,很痛苦。更一般的情况是,对训练集下的某一个文件夹的所有图片进行数据增强,这就是我写这个的理由。
这部分的理论,可以参考:https://blog.csdn.net/mieleizhi0522/article/details/82191331
函数说明
准备工作
所使用的环境
Python3.6、tensorflow-gpu 1.5.0、keras2.2.4
功能说明