概述
支持向量机已经成功的应用在许多大规模样本集分类中,但是在这些样本集中可能存在着大量的噪声和冗余信息,进而导致分类器的分类精度不高。因此近年来,大量的去噪声和删减样本的文章不断涌现出。其中欠抽样算法就是通过删减多数类样本的数目以达到均衡样本集的目的。
然而常用的欠抽样方法都是些随机欠抽样方法,这种方法存在着一些缺陷:采样具有很大的随机性,这是由于随机欠抽样方法未考虑样本的分布情况,可能会删除某些重要的多数类样本信息。
针对这一不足,本章将给出一种新的逐级优化递减的欠抽样方法(optiization of decreasing reduction ODR),并给出了一种基于 ODR 和 BSMOTE 算法结合的不均衡数据 SVM 分类算法。在介绍 ODR 算法之前,我们首先介绍一下 KNN 算法。
KNN 算法
KNN 算法也叫 K 最近邻(K-Nearest Neighbor, KNN)分类算法,该算法是一种理论上比较成熟的分类算法,也是最简单的分类算法之一。
对于二分类问题,设样本集 (x1,x2,...,xn) 中有 n 个样本,其中样本类别为 { y1,y2} 。对于一个待识别的样本 x,分别计算它和各个已知类别的训练样本之间的距离:
dj(x)=∥∥xj−x∥∥,j=1,2,...,n
选择距离 x 最近的 k 个样本(即 k 个最近邻样本),在这 k 个最近邻样本中哪一类样本最多,就认为 x 是属于哪一类的。
设