什么叫做不均衡数据?
数据中一大堆梨,极少部分苹果。假设问别人是想吃梨子还是苹果?大概率回答是苹果。这就出现了数据的不均衡,永远都是猜测数据多的那一方。所以梨子笑了!
反映到数据中来说,就是蓝色数据占比太少了!
然后就是数据的不均衡导致数据出错,机器他就学歪了?!!!
就是在想怎么解决啊。因为对于数据来说,特征工程很重要啊,数据分布也很重要的啊。
解决方法1
可能前期数据出现不均衡,后期数据他就均衡了。然后整个数据通过获取更多的数据出现了均衡。
解决方法2
这个通常我们判断模型是否准确率高,常用到accuracy和cost的概念,但往往会忽略数据存在不平衡。可以采用混淆矩阵得到PR曲线(这里还有个Area of curve AUC的概念),进而得到F-score。可以直接分析数据是否存在不平衡。
解决方法3
简单粗暴,重组数据使之均衡。少的数据扩充,多的数据就裁剪。
解决方法4
神经网络面对不均衡数据,通常是束手无策的。像决策树就不会受到不均衡数据的影响。
解决方法5(更具创造力)
移动门槛基准线,使之更偏向于苹果中,也就是提高分类的置信度。只有在非常置信的程度下,才能预测是苹果