线性支持向量机与软间隔最大化
线性支持向量机
线性不可分意味着某些样本点(x i ,y i )不能满足函数间隔大于等于1的约束条件(7.14)。为了解决这个问题,可以对每个样本点(x i ,y i )引进一个松弛变量εi ≥0,使函数间隔加上松弛变量大于等于1。这样,约束条件变为:
目标函数变为:
这里,C>0称为惩罚参数,一般由应用问题决定,C值大时对误分类的惩罚增大,C值小时对误分类的惩罚减小 。有了上面的思路,可以和训练数据集线性可分时一样来考虑训练数据集线性不可分时的线性支持向量机学习问题。相应于硬间隔最大化,它称为软间隔最大化。
学习的对偶算法
KKT条件:
(1)梯度为零
(2)稀疏性(互补松弛性)
(3)原问题约束
合页损失函数
对于线性支持向量机学习来说,其模型为分离超平面w * ·x+b * =0及决策函数f(x)=sign(w * ·x+b * ),其学习策略为软间隔最大化,学习算法为凸二次规划。
线性支持向量机学习还有另外一种解释,就是最小化以下目标函数:
目标函数的第1项是经验损失或经验风险,函数 :
称为合页损失函数(hinge loss function)。下标“+”表示以下取正值的函数。
这就是说,当样本点(x i ,y i )被正确分类且函数间隔(确信度)y i (w·x i +b)大于1时,损失是0,否则损失是1-y i (w·x i +b)。目标函数的第2项是系数为λ 的w的L2范数,是正则化项。