基于 ODR 和 BSMOTE 的不均衡 SVM 分类算法

本文介绍了基于ODR(逐级优化递减欠抽样)和BSMOTE(边界样本合成过抽样)的SVM算法,用于处理不均衡数据集。ODR算法通过KNN评估多数类样本对分类的影响,删除冗余样本,而BSMOTE则增强少数类样本信息。实验结果显示,ODR-BSMOTE-SVM在不同不均衡比例下,特别是在低比例时,其F-measure和G-mean性能优于BSMOTE-SVM。
摘要由CSDN通过智能技术生成

概述

支持向量机已经成功的应用在许多大规模样本集分类中,但是在这些样本集中可能存在着大量的噪声和冗余信息,进而导致分类器的分类精度不高。因此近年来,大量的去噪声和删减样本的文章不断涌现出。其中欠抽样算法就是通过删减多数类样本的数目以达到均衡样本集的目的。

然而常用的欠抽样方法都是些随机欠抽样方法,这种方法存在着一些缺陷:采样具有很大的随机性,这是由于随机欠抽样方法未考虑样本的分布情况,可能会删除某些重要的多数类样本信息

针对这一不足,本章将给出一种新的逐级优化递减的欠抽样方法(optiization of decreasing reduction ODR),并给出了一种基于 ODR 和 BSMOTE 算法结合的不均衡数据 SVM 分类算法。在介绍 ODR 算法之前,我们首先介绍一下 KNN 算法。


KNN 算法

KNN 算法也叫 K 最近邻(K-Nearest Neighbor, KNN)分类算法,该算法是一种理论上比较成熟的分类算法,也是最简单的分类算法之一。

对于二分类问题,设样本集 (x1,x2,...,xn) 中有 n 个样本,其中样本类别为 { y1,y2} 。对于一个待识别的样本 x,分别计算它和各个已知类别的训练样本之间的距离:

dj(x)=xjx,j=1,2,...,n

选择距离 x 最近的 k 个样本(即 k 个最近邻样本),在这 k 个最近邻样本中哪一类样本最多,就认为 x 是属于哪一类的。

评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值