左边的是线性可分的(Separable),margin = 2M = 2/||w||,右边的是线性不可分(Nonseparable),其中标有 ξ 的点是在它们边界的另一边(未正确区分的点),离边界 ξ∗j = Mξj 。所有正确可分的点有 ξ∗j = 0. 因此 ∑ ξ∗j 就是所有未正确区分点偏离距离,我们在最大化margin时要限制 ∑ ξ∗j ≤ constant C.
我们用soft margin(a decision boundary that is tolerable to small training errors),这个margin需要权衡margin的大小和允许错误区分点的个数。引入slack variables ξ = (ξ1, ξ2, . . . , ξm), 使得
(wTx(i) + b) ≥ 1- ξi if y(i) = 1
(wTx(i) + b) ≤ -1+ ξi if y(i) = -1
其中ξi ≥ 0,它控制着允许错误区分点的个数,当ξi ≥1时,就会出现区分错误,因此我可以限制 ∑ ξ∗j 来调节允许错误数。
此时原始问题就转化为
为了计算方便我们再改写为
在线性可分中C = ∞.
对应的 The Lagrange (primal) function is
( 与y(i)(wTx(i) + b) ≥ 1- ξi 一样,ξi ≥ 0也在Lagrange function中有体现。)
所对应的KKT条件:
只有在y(i)(wTx(i) + b) = 1 上的样本点或 ξi=0 时,α才非零;
对于错误区分的点ξi>0,此时μi=0.
分别求Lp对w, b, ξi 的偏导,并令其为零:
把它们代入到Lp中得到dual Lagrangian:
问题转化为最大化LD,同时要满足上面的KKT条件和