支持向量机(SVM)是基于统计学习理论的一种模型,它是在统计学理论中的VC维和结构风险最小化的基础上发展起来的一种机器学习方法。下面我们就介绍几种不同的SVM方法,这里我们只给出不同SVM的规划问题(结合了松弛变量的SVM),并不介绍相应的求解过程。本文使用的训练集样本为:
T={(x1,y1),...,(xl,yl)}
,其中,
l
为样本点的个数;训练集
1.C-SVM
常用的SVM可以称为标准的SVM,或称为C-SVM。C-SVM是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化(Margin 最大化),最终可转化为一个凸二次规划问题的求解。对于线性可分的情况,C-SVM问题可以转化为如下的二次规划问题:
其中, C 为惩罚参数,
2.V-SVM
在C-SVM中有两个互相矛盾的目标:最大Margin和最小训练误差,其中
C
起着调节这两项目标的作用。参数
V-SVM的思想就是利用新的参数来代替
C
。在线性可分的情况下,V-SVM模型如下:
其中, l 为训练集样本点的个数。在一定条件下,当
3.W-SVM
在实际应用中,不同的样本在训练集中所占的比重是不同的。基于这一思想,针对不同的样本应该选择不同的惩罚参数,因此提出了加权支持向量机(W-SVM)。W-SVM可以解决C-SVM算法不能根据每个样本的重要性区别对待的缺陷,并且可以提高小样本的预测精度。线性可分的情况,W-SVM模型如下:
其中,参数 si 表示每个样本的权重,即惩罚参数变为了 Csi 。
4.LS-SVM
当训练样本很大时,优化C-SVM算法计算量庞大。为方便求解SVM,提出了最小而成支持向量机(LS-SVM)。LS-SVM将C-SVM中的不等式约束变为等式约束,求解过程变成了解一组等式方程,求解速度相对加快。但是LS-SVM使用的是最小二乘损失函数,这样破坏C-SVM的稀疏性。线性可分的情况,LS-SVM的模型如下:
另外,借鉴W-SVM的思想,在LS-SVM的基础上提出了加权最小二乘支持向量机( WLS-SVM)。类似于W-SVM,WLS-SVM就是将每个样本的惩罚参数 C 变为了
5.L-SVM
虽然LS-SVM可以提高求解SVM的速度,但提高的速度相对较小。如果改变C-SVM的目标函数,使得对偶问题为一无上界约束的二次函数的最小值问题,那么将大大加快求解的速度。因此提出了Lanrange支持向量机(L-SVM)。L-SVM将C-SVM中的1-范数变为2-范数,并省略约束条件
ξi≥0
,同时将
b2
加进目标函数中。线性可分的情况,L-SVM的模型和如下:
总结
对标准SVM的变形,是建立在降低计算资源,提高算法效率的基础上的。这些变形主要是通过增加函数项、增加变量或者改变系数的办法来产生出使用某一方面或者某一应用范围的算法。研究者们提出许多SVM算法的变形,除了上述介绍的几种变形以外,SVM的变形算法还有:中心支持向量机(P-SVM)、加权中心支持向量机(WP-SVM)、直推式支持向量机(T-SVM)、有限牛顿支持向量机(NL-SVM)等。
在优化SVM的时候,我们通常采用的是给目标函数增加拉格朗日乘子的方法求解的,并要通过求解原问题的对偶问题来得到最终问题的解。通过将原问题转换为对偶问题,不仅使得原问题更容易求解,并且对偶问题可以引入核函数,从而将SVM推广带线性不可分的情况上。
对于线性不可分的情况,SVM先将训练集做非线性变换将输入空间映射到Hilbert空间。即寻找一个变换
Φ
,满足:
将变换 Φ 作用在训练集样本上,即将训练集 T={(x1,y1),...,(xl,yl)} 映射为 T={(Φ(x1),y1),...,(Φ(xl),yl)} 。所以对于线性不可分的情况,只需将上述SVM算法中的 xi 换为 Φ(xi) 即可。
但是实际对SVM进行求解时,我们是求解的是原问题的对偶问题,而结合核函数就可以求解线性不可分情况下的对偶问题。这样就省去了在高维空间进行计算。通过选择一个核函数,可以在低维空间完成计算,将数据映射到高维空间,来解决在原始空间中线性不可分的问题。
以上就是SVM方法的一些补充。由于笔者能力和阅历有限,文章中必有不足之处,恳请各位读者加以指正批评。
参考文献
范玉妹, 赵丽丽. 关于支持向量分类机算法的研究[J].JOURNAL OF SHIJIAZHUANG RAILWAY INSTITUTE, 2007-9.