样本不平衡的处理方法

最新推荐文章于 2024-03-14 09:52:40 发布

讲故事的猫猫

最新推荐文章于 2024-03-14 09:52:40 发布

阅读量1.9k

点赞数 1

分类专栏：工作笔记文章标签：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/AaronPaul/article/details/113994474

版权

本文详细介绍了处理样本不平衡问题的各种方法，包括随机过采样、随机欠采样、EasyEnsemble、BalanceCascade以及各种KNN欠采样策略，如NearMiss、CNN、Tomek链接、ENN和NCR。此外，还讨论了SMOTE、Borderline-SMOTE和KMeans等过采样技术，旨在改善分类模型性能。

摘要由CSDN通过智能技术生成

样本不平衡其实的主要思想就是过采样和欠采样，但是由于在复制少量标签的样本或者筛选大量标签的样本方法不同衍生出了不同的处理手段

1.随机过采样：复制标签少的样本使得好坏比满足建模需要

2.随机欠采样：抽取标签多的样本使得好坏比满足建模需要（会丢失样本信息）

3.EasyEnsemble：标签多的样本进行n份，每份都和标签少的全部样本组合成n份训练样本，利用集成学习训练n个弱分类器（原论文是用adaboost框架，当然用其他框架也是可以的）

4.BalanceCascade：对标签多的样本进行欠采样，和标签少的全部样本组合成训练样本，弱分类器分类正确的标签多数样本不放回，分类错误的放回。

再进行标签多的样本欠采样，训练。

举个例子吧。假设你有1000个标签为1的样本，10个标签为0的样本。

第一步，从1样本中随机抽取10个和10个0样本组成训练样本

第二步，训练弱分类器发现，10个1样本中7个分类正确，3个分类错误。

第三步，将3个分类错误的1样本放回原来的990个1样本中。

重复第一步（这个时候抽样的1样本总样本量为993个）

5. KNN 欠抽样：虽然有很多变种，其实思想是大同小异的。

5.1 NM欠采样：有3个不同的方法

NearMiss-1从多数类中选择，那些与少数类中三个最接近示例的平均距离最小的示例。
NearMis

最低0.47元/天解锁文章

讲故事的猫猫

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。