处理不均衡数据(dealing with imbalanced data)

什么叫做不均衡数据?

数据中一大堆梨,极少部分苹果。假设问别人是想吃梨子还是苹果?大概率回答是苹果。这就出现了数据的不均衡,永远都是猜测数据多的那一方。所以梨子笑了!

反映到数据中来说,就是蓝色数据占比太少了!

然后就是数据的不均衡导致数据出错,机器他就学歪了?!!! 

 

 就是在想怎么解决啊。因为对于数据来说,特征工程很重要啊,数据分布也很重要的啊。

解决方法1

 

 可能前期数据出现不均衡,后期数据他就均衡了。然后整个数据通过获取更多的数据出现了均衡。

 解决方法2

 

这个通常我们判断模型是否准确率高,常用到accuracy和cost的概念,但往往会忽略数据存在不平衡。可以采用混淆矩阵得到PR曲线(这里还有个Area of curve AUC的概念),进而得到F-score。可以直接分析数据是否存在不平衡。

 

 解决方法3

简单粗暴,重组数据使之均衡。少的数据扩充,多的数据就裁剪。

 

 解决方法4

神经网络面对不均衡数据,通常是束手无策的。像决策树就不会受到不均衡数据的影响。

 

 解决方法5(更具创造力)

 移动门槛基准线,使之更偏向于苹果中,也就是提高分类的置信度。只有在非常置信的程度下,才能预测是苹果

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值