上次说到如何推导出硬间隔的线性SVM,这次我们将它拓展一下,写成一个无约束问题,然后与logistic回归化为同一个形式。
(1)软间隔SVM
(1)
这个式子是我们一般的SVM问题(硬间隔),在添加松弛约束的变量后,可以被转化为软间隔的SVM:
(2)
添加的变量表明,允许有一些变量对于这个约束不严格成立,而代表惩罚的程度。那么一个问题就出现了,这个问题和原来的硬约束的问题是什么关系呢?结论是可能关系并不是很大。下面在线性可分的基础上进行讨论,假设惩罚系数。
设是原问题(1)的最优解, 和是软约束问题(2)的最优解。设恒等于零,这样和是(2)的一个解。下面举一个例子说明这两个问题的解可以有很大的区别。
假设在一维空间中对点0.5,点-0.5进行分类,那么最优的w和b分别为2和0,分割超平面就是原点。我们可将其视为以w为斜率的函数的零点。如图:
那么,其对应的在(2)中的目标函数值为2。取和,我们可以计算得和,进而目标函数值为1.5,小于2,总结如图:
所以,(1)中取得最优的与(2)中取得最优的不一定有很大关系,但是,当的时候,我们知道这两个问题是等价的。
(2)无约束的形式
关于一些引入无约束形式的说明,详细见PRML,这里只做简单介绍。
(2)
等价于
(2)’
等价于
(3)
这就转化为了无约束的形式。而logistic回归(带正则化项)和另外一种SVM(通过将松弛用的变量进行一些调整)也可以写成同一种形式。
logistic回归:
(4)
L2-SVM:
(5)
推导过程是相同的。
由此,可以将SVM分为4种。
L1-regularized L2-loss
L1-regularized L1-loss
L2-regularized L2-loss
L2-regularized L1-loss
其中regularized指的是正则项||w||是取得1-norm还是2-norm。loss指的是损失max是不是取的平方。
参考文献:
【1】liblinear使用说明,见官网https://www.csie.ntu.edu.tw/~cjlin/liblinear/
【2】PRML Pattern Recognition and Machine Learning