软间隔正规化处理线性不可分情况(Regularization and non-separable case)

Regularization and non-separable case

引言:在去掉了数据必定是线性可分这一条件后,为了实现最优间隔分类,我们引入了软间隔正规化来解决这一问题。正规化后引入了松弛变量和问题也变为“软间隔”,可推导其对偶问题和KKT补充条件。

我们关于SVM的推导一直基于线性可分这一基本条件。尽管将数据映射到高维特征空间可以大大增加线性可分的可能性,我们依然不能保证数据一定是线性可分的。即便是线性可分的数据集,有时我们依然无法得到令人满意的分割超平面。这是因为当前的模型对异常值很敏感。如下图所示,原先的分割平面是红色的实线,加入一个异常值后,平面旋转成了黑色的虚线,而在这一过程中整体样本的几何间隔大大减小。

model sensitive to outliers

为了让模型不在对异常值如此敏感同时也可以划分不可分情形,我们重构了优化模型,引入了松弛变量(使用 1regularization ):

minγ,ω,bs.t.12ω2+Ci=1mξiy(i)(ωTx+b)1ξi, i=1,2,,mξi0, i=1,,m.

重构之后我们的模型将允许样本的几何间隔小于1,同时对那些几何间隔为 1ξi 的点,目标函数会付出增长 Cξi 的代价。参数 C 控制平衡两个目标——减小ω2和保证尽可能多的样本几何间隔大于1——实现程度的相关系数。


随后我们可以写出模型的拉格朗日方程:

L(ω,b,ξ,α,r)=12ωTω+Ci=1mξii=1mαi[y(1)(xTω+b)1+ξi]i=1mriξi.

其中 αi,ri 是拉格朗日乘子,将 L ω,b,ξ,r 求偏导数并令偏导为0,将得到的公式回到进方程即可求得方程的对偶形式:

maxα s.t. W(α)=i=1mαi12i,j=1my(i)y(j)αiαjx(i),x(j)0αC, i=1,,mi=1mαiy(i)=0,

通过对偶问题我们将以将 ω α 表示,经过 1 正规化后唯一的变化就是约束由 0αi 变为 0αiC b 的结果需要重新计算,想了解的可以去查看Platt的paper。

由KTT得到的对偶补充条件有:

αi=0y(i)(ωTx(i)+b)1(14)αi=Cy(i)(ωTx(i)+b)1(15)0αiCy(i)(ωTx(i)+b)=1(16)

现在我们的问题就只剩下如何求解对偶问题了。

参考文献:
[1]. Andrew Ng, Machine Learning [M/CD] Stanford University

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值