基于 ODR 和 BSMOTE 的不均衡 SVM 分类算法

最新推荐文章于 2020-12-03 10:17:25 发布

该昵称已经被占用

最新推荐文章于 2020-12-03 10:17:25 发布

阅读量5.2k

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011414200/article/details/50668534

版权

本文介绍了基于ODR（逐级优化递减欠抽样）和BSMOTE（边界样本合成过抽样）的SVM算法，用于处理不均衡数据集。ODR算法通过KNN评估多数类样本对分类的影响，删除冗余样本，而BSMOTE则增强少数类样本信息。实验结果显示，ODR-BSMOTE-SVM在不同不均衡比例下，特别是在低比例时，其F-measure和G-mean性能优于BSMOTE-SVM。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

概述

支持向量机已经成功的应用在许多大规模样本集分类中，但是在这些样本集中可能存在着大量的噪声和冗余信息，进而导致分类器的分类精度不高。因此近年来，大量的去噪声和删减样本的文章不断涌现出。其中欠抽样算法就是通过删减多数类样本的数目以达到均衡样本集的目的。

然而常用的欠抽样方法都是些随机欠抽样方法，这种方法存在着一些缺陷：采样具有很大的随机性，这是由于随机欠抽样方法未考虑样本的分布情况，可能会删除某些重要的多数类样本信息。

针对这一不足，本章将给出一种新的逐级优化递减的欠抽样方法（optiization of decreasing reduction ODR），并给出了一种基于 ODR 和 BSMOTE 算法结合的不均衡数据 SVM 分类算法。在介绍 ODR 算法之前，我们首先介绍一下 KNN 算法。

KNN 算法

KNN 算法也叫 K 最近邻（K-Nearest Neighbor, KNN）分类算法，该算法是一种理论上比较成熟的分类算法，也是最简单的分类算法之一。

对于二分类问题，设样本集 $(x_{1},x_{2},...,x_{n})$ 中有 n 个样本，其中样本类别为 $\left \{y_{1},y_{2} \right \}$ 。对于一个待识别的样本 x，分别计算它和各个已知类别的训练样本之间的距离：

$d_{j}(x)=\left \| x_{j}-x \right \|,j=1,2,...,n$

选择距离 x 最近的 k 个样本（即 k 个最近邻样本），在这 k 个最近邻样本中哪一类样本最多，就认为 x 是属于哪一类的。

设

最低0.47元/天解锁文章

评论 9

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。