正负样本不均衡的解决办法

最新推荐文章于 2024-05-06 12:48:48 发布

fly_Xiaoma

最新推荐文章于 2024-05-06 12:48:48 发布

阅读量6.6k

点赞数 1

分类专栏： machineLearning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38664232/article/details/89302442

版权

machineLearning 专栏收录该内容

33 篇文章 2 订阅

订阅专栏

机器学习中，最重要的一个过程就是模型训练，但是在做模型训练之前需要对数据进行预处理也就是常见的数据清洗和特征工程。

数据清洗过程中，比较重要的一步就是查看正负样本是否均衡。

那么数据集中出现正负样本不均衡，怎么解决呢？

常用的有一下几种方法：

采样，采样主要包括上采样（oversampling，有的称为过采样）和下采样（undersampling，有的称为降采样）
数据合成，利用已有样本来生成更多的样本，这种方法在小数据场景下有很多成功案例。
除了采样和生成新数据等方法，还可以通过加权的方式来解决数据不平衡问题，即对不同类别分错的代价不同

下面主要介绍采样方式处理正负样本不均衡问题：

1、上采样

通过将小众类样本复制多份，来得到多个不同数据集的方式，每个数据集训练一个模型。

2、下采样

通过从大众类众剔除一些样本，或者只从大众类样本中选取部分样本。

利用模型融合的方式（Ensemble），多次下采样（放回采样，产生多个相互独立的数据集），进而训练多个不同的分类器，通过组合多个分类器的结果进而得到最终的结果，这种方式称为EasyEnsemble。

利用增量训练的思想（Boosting），先通过一次下采样产生训练集，训练一个分类器，对于那些分类正确的大众样本不放回，然后对这个更小的大众样本下采样产生训练集，训练第二个分类器，以此类推，最终组合所有分类器的结果得到最终结果，这种方式称为BalanceCascade。

总结：随机采样的优点是简单，但缺点也很明显。上采样后的数据集中会反复出现一些样本，导致训练出来的模型有一定的过拟合；而对于下采样，由于是采用从大众类众剔除一些样本，那么会丢失一部分信息，模型只学到了总体模式的一部分，容易欠拟合。

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
正负样本不均衡的解决办法

机器学习中，最重要的一个过程就是模型训练，但是在做模型训练之前需要对数据进行预处理也就是常见的数据清洗和特征工程。数据清洗过程中，比较重要的一步就是查看正负样本是否均衡。那么数据集中出现正负样本不均衡，怎么解决呢？常用的有一下几种方法：采样，采样主要包括上采样（oversampling，有的称为过采样）和下采样（undersampling，有的称为降采样）数据合成，利用已有样本...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。