机器学习中样本不平衡的常用处理方法

最新推荐文章于 2024-07-14 10:32:39 发布

YoungshellZzz

最新推荐文章于 2024-07-14 10:32:39 发布

阅读量950

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/YoungshellZzz/article/details/85223094

版权

不平衡数据处理

采样是为了解决数据不均衡的问题，数据不均衡问题即各类别的样本分布不均衡问题。如果不处理数据不均衡问题，会导致拟合出来的模型对训练集中样本数比较少的类别泛化能力较差。例如，对于二分类问题，训练集中A类别样本占比90%，B类别样本占比10%，测试集中A、B类别样本各占比50%，若不处理数据不均衡问题，训练出来的模型在测试集里对类别B的预测准确率会比较低，甚至低于50%（低于50%还不如不训练）。

解决数据不平衡问题主要有权重法和采样法。

假设样本数目A类比B类多（例如A100，B10），且严重不平衡，则有两种处理方法，一种是基于样本的，另一种是基于算法的。

1.基于样本的处理方法：

1）A类欠采样

随机欠采样
A类分成若干子类，分别与B类进入ML模型（例如：取A的20%，与B进入ML，该过程重复若干次，每次形成Ti，最后形成若干颗树，用这个森林去做最终的分类）
基于聚类的A类分割（例如：聚类成10个簇，每个簇与B一起进入ML）

2）B类过采样

例如将B类数据复制5份，这样可以避免欠采样造成的信息丢失，但事实证明，欠采样比过采样效果好，因为欠采样的速度快。

3）B类数据合成新样本

随机插值得到新样本（其实就是造特征）
SMOT

2.基于算法的处理方法：

降低A类权值，提高B类的权值。

例如，给A的样本权值设置为0.1，给B的样本权值设置为10（实际中B的权值设置为2就可以）

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

YoungshellZzz CSDN认证博客专家 CSDN认证企业博客

码龄6年

8: 原创

46万+: 周排名

141万+: 总排名

1万+: 访问

: 等级

227: 积分

2: 粉丝

8: 获赞

1: 评论

47: 收藏

私信

关注

热门文章

分类专栏

算法后花园 1篇

最新评论

因果推断（一）：因果推断两大框架及因果效应
CSDN-Ada助手: 非常感谢您分享这篇关于因果推断的博客！标题中提到了因果推断的两大框架和因果效应，这无疑是一个非常重要的话题。您的博客给读者提供了一个很好的入门指南，帮助我们更好地理解因果关系。我非常期待您未来的创作。作为下一步的建议，您可以探索更多关于因果推断的具体案例和实际应用。例如，您可以讨论一些因果推断的方法论，或者分享一些实际研究中发现的因果关系。这样的深入探讨将进一步丰富读者的知识，并帮助我们更好地理解因果推断的重要性。再次感谢您的分享，并祝愿您在未来的创作中取得更大的成功！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。