(2)线性支持向量机与软间隔最大化
1.线性支持向量机
针对线性可分的数据,我们可以采用线性可分支持向量机进行划分,模型如下:
(1)
但是对于线性不可分的数据集,通常情况下,训练数据中存在一些特异点,当去除特异点后,剩下的样本点组成的集合是线性可分的。那么针对线性不可分数据集,意味着默写样本点(特异点)不满足函数间隔大于等于1的约束条件。为解决这个问题,我们对这些特异点引入了一个
松弛变量,使函数间隔加上松弛变量后大于等于1,而且同时对每一个松弛变量都对目标函数支付一个
代价,从而线性不可分的线性支持向量机可以表示为:
(2)
(这里的C>0称为惩罚参数。在(2)式中目标函数具有两个含义:1.使得间隔尽量大;2.使得误分类点个数尽量小)
2.对偶算法求解
利用拉格朗日对偶性,和求解线性可分支持向量机相同的算法,我们可以得到原始问题(2)的对偶问题:
(3)
如果存在上述问题的解α*,那么原始问题(2)的解为:
(4)
3.线性支持向量机学习算法
通过比较线性可分支持向量机和线性支持向量机,在对偶求解时,区别是线性支持向量机需要考虑一个惩罚参数C,并且αi取值要小于等于C