处理不均衡数据（dealing with imbalanced data）

最新推荐文章于 2022-10-14 09:20:23 发布

lamusique

最新推荐文章于 2022-10-14 09:20:23 发布

阅读量514

点赞数

分类专栏：应用型文章标签：不均衡数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lamusique/article/details/95461292

版权

应用型专栏收录该内容

58 篇文章 10 订阅

订阅专栏

什么叫做不均衡数据？

数据中一大堆梨，极少部分苹果。假设问别人是想吃梨子还是苹果？大概率回答是苹果。这就出现了数据的不均衡，永远都是猜测数据多的那一方。所以梨子笑了！

反映到数据中来说，就是蓝色数据占比太少了！

然后就是数据的不均衡导致数据出错，机器他就学歪了？！！！

就是在想怎么解决啊。因为对于数据来说，特征工程很重要啊，数据分布也很重要的啊。

解决方法1

可能前期数据出现不均衡，后期数据他就均衡了。然后整个数据通过获取更多的数据出现了均衡。

解决方法2

这个通常我们判断模型是否准确率高，常用到accuracy和cost的概念，但往往会忽略数据存在不平衡。可以采用混淆矩阵得到PR曲线（这里还有个Area of curve AUC的概念），进而得到F-score。可以直接分析数据是否存在不平衡。

解决方法3

简单粗暴，重组数据使之均衡。少的数据扩充，多的数据就裁剪。

解决方法4

神经网络面对不均衡数据，通常是束手无策的。像决策树就不会受到不均衡数据的影响。

解决方法5（更具创造力）

移动门槛基准线，使之更偏向于苹果中，也就是提高分类的置信度。只有在非常置信的程度下，才能预测是苹果

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。