Regularization and non-separable case
引言:在去掉了数据必定是线性可分这一条件后,为了实现最优间隔分类,我们引入了软间隔正规化来解决这一问题。正规化后引入了松弛变量和问题也变为“软间隔”,可推导其对偶问题和KKT补充条件。
我们关于SVM的推导一直基于线性可分这一基本条件。尽管将数据映射到高维特征空间可以大大增加线性可分的可能性,我们依然不能保证数据一定是线性可分的。即便是线性可分的数据集,有时我们依然无法得到令人满意的分割超平面。这是因为当前的模型对异常值很敏感。如下图所示,原先的分割平面是红色的实线,加入一个异常值后,平面旋转成了黑色的虚线,而在这一过程中整体样本的几何间隔大大减小。
为了让模型不在对异常值如此敏感同时也可以划分不可分情形,我们重构了优化模型,引入了松弛变量(使用 ℓ1−regularization ):
重构之后我们的模型将允许样本的几何间隔小于1,同时对那些几何间隔为
1−ξi
的点,目标函数会付出增长
Cξi
的代价。参数
C
控制平衡两个目标——减小
随后我们可以写出模型的拉格朗日方程:
其中 αi,ri 是拉格朗日乘子,将 L 对 ω,b,ξ,r 求偏导数并令偏导为0,将得到的公式回到进方程即可求得方程的对偶形式:
通过对偶问题我们将以将 ω 用 α 表示,经过 ℓ1 正规化后唯一的变化就是约束由 0≤αi 变为 0≤αi≤C 。 b∗ 的结果需要重新计算,想了解的可以去查看Platt的paper。
由KTT得到的对偶补充条件有:
现在我们的问题就只剩下如何求解对偶问题了。
参考文献:
[1]. Andrew Ng, Machine Learning [M/CD] Stanford University