经典混合采样方法------BDSK(基于聚类的混合采样)算法总结

Java 第一深情

于 2024-07-01 17:17:24 发布

阅读量278

点赞数 5

分类专栏：不平衡数据分类文章标签：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_46248151/article/details/140104543

版权

不平衡数据分类专栏收录该内容

6 篇文章 0 订阅

订阅专栏

该算法结合Smote过采样算法和基于K-均值的欠采样算法，解决了类内不平衡问题和类间不平衡问题。

该方法不仅避免了噪声过大的问题，而且解决了样本不足的问题。

一、算法描述

假设具有多个类的训练数据集是不平衡的，数据集包含m个类{C1，C2，...，Cm}，每个类的大小为{N1，N2，...，Nm}。

对于多数类：使用K-Means将多数类划分为k个聚类，其中k是类大小的平均值。挑选出k个距离聚类中心点最近的样本作为新数据集。

对于少数类：首先使用K-Means将少数类划分为两个聚类，将较小的聚类执行SMOTE过采样，生成s个样本到少数类中，一直重复这个过程直至该类大小Ni为k

二、算法步骤

输入：{C1，C2，...，Cm} and 类大小的均值k

输出：重采样后的新数据集

该方法利用K-均值实现多数类欠抽样，同时实现类内均衡。从聚类中心选择最近的样本，节省了生成新样本的时间。对于少数类，该方法选择样本分布稀疏的较小聚类，使用Smote过采样，在增加样本数量的同时，实现类内均衡。

Java 第一深情

关注

5
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
经典混合采样方法------BDSK(基于聚类的混合采样)算法总结

该算法结合Smote过采样算法和基于K-均值的欠采样算法，解决了类内不平衡问题和类间不平衡问题。该方法不仅避免了噪声过大的问题，而且解决了样本不足的问题。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。