SVM 中的mathematics —— Basic SVM 和 Soft Margin SVM

1. Basic SVM

  • 训练样本集: {(xi,yi),i=1,2,,m=m++m} { ( x i , y i ) , i = 1 , 2 , ⋯ , m = m + + m − } ,其中, xiRn,yi{+1,1} x i ∈ R n , y i ∈ { + 1 , − 1 }
  • 目标 1):找到一个超平面 {x|wTx+b=0} { x | w T x + b = 0 } 对训练样本集进行分割。使得不同类别间的间隔尽可能大。
  • 分类方程
    H(x)=wTx+b H ( x ) = w T x + b

在任一点 x x 处,若 H(x)>0,则 x x 属于第 I 类;若 H(x)<0,则 x x 属于第 II 类。

1) 建模

假设分割两类样本点的超平面P的方程为 {x|wTx+b=0},则总可以通过调节系数(两端同乘以一个系数)使得两类中距离超平面最近点分别位于平面P1: {x|wTx+b=+1} { x | w T x + b = + 1 } 和平面P2: {x|wTx+b=1} { x | w T x + b = − 1 } 上。同时,P1和P2间的距离为: 2w2 2 ‖ w ‖ 2

关于P1与P2间的距离为 2w2 2 ‖ w ‖ 2 的证明

w w 的方向为平面P的法向量方向(即与平面垂直)。对于平面上任一点x,有: wTx+b=0 w T x + b = 0 ,即 wxcosθ=0 ‖ w ‖ ⋅ ‖ x ‖ ⋅ cos ⁡ θ = 0 ,其中, θ θ w w x的夹角。因此,有 xcosθ=bw ‖ x ‖ ⋅ cos ⁡ θ = b ‖ w ‖ 。其中, xcosθ ‖ x ‖ ⋅ cos ⁡ θ 为点 x x w方向的投影,即为平面P到原点的距离。而P1与P2间的距离可以由P2到原点的距离减去P1到原点的距离求得,因此P1与P2见的距离为 2w2 2 ‖ w ‖ 2

以上,我们便得到了如下的优化问题:

maxw,b s.t. 2w2wTxi+b1,where yi=+1,i=1,2,,m+wTxj+b1,where yj=1,j=1,2,,m(1)(2)(3) (1) max w , b   2 ‖ w ‖ 2 (2) s . t .   w T x i + b ≥ 1 , w h e r e   y i = + 1 , i = 1 , 2 , ⋯ , m + (3) w T x j + b ≤ − 1 , w h e r e   y j = − 1 , j = 1 , 2 , ⋯ , m −

为了便于求解,该问题可以转换为:

【式-0】优化问题表达式

minw,b s.t. 12wTwyi(wTxi+b)1,i=1,2,,m(4)(5) (4) min w , b   1 2 w T w (5) s . t .   y i ( w T x i + b ) ≥ 1 , i = 1 , 2 , ⋯ , m

由于上述优化问题为凸优化问题,因此可以通过求解对偶问题来求解上述问题。

2) Lagrange乘子法求解 对偶问题

【式-1】

L(w,b,α)=12wTwi=1mαi[yi(wTxi+b)1] L ( w , b , α ) = 1 2 w T w − ∑ i = 1 m α i [ y i ( w T x i + b ) − 1 ]

上式中, αi α i 为对偶变量。
原问题的对偶问题为
maxαinfw,bL(w,b,α) max α inf w , b L ( w , b , α )

因此,由KKT条件:

【式-2】

L(w,b,α)w=0L(w,b,α)b=0w=i=1mαiyixii=1mαiyi=0(6)(7) (6) ∂ L ( w , b , α ) ∂ w = 0 ⇒ w = ∑ i = 1 m α i y i x i (7) ∂ L ( w , b , α ) ∂ b = 0 ⇒ ∑ i = 1 m α i y i = 0

式-2 中的结果代入 式-1,有:
L(w,b,α)=i=1mαi12i=1mj=1myiyjαiαjxTixj L ( w , b , α ) = ∑ i = 1 m α i − 1 2 ∑ i = 1 m ∑ j = 1 m y i y j α i α j x i T x j

因此,对偶问题可以表达为:

【式-3】对偶问题

maxαs.t. i=1mαi12i=1mj=1myiyjαiαjxTixjαi0,i=1,2,,mi=1mαiyi=0(8)(9)(10) (8) max α ∑ i = 1 m α i − 1 2 ∑ i = 1 m ∑ j = 1 m y i y j α i α j x i T x j (9) s . t .   α i ≥ 0 , i = 1 , 2 , ⋅ , m (10) ∑ i = 1 m α i y i = 0

假设原问题和对偶问题的最优解为 w,b,α w ∗ , b ∗ , α ∗ ,由互补松弛条件

αi[yi(xTiw+b)1]=0 α i ∗ [ y i ( x i T w ∗ + b ∗ ) − 1 ] = 0

因此,与 alphai>0 a l p h a i ∗ > 0 对应的 xi x i 即为支持向量:满足$y_i(x_i^Tw^+b^) = \pm 1。由此可以解得所有变量:

w=i=1mαiyixi w ∗ = ∑ i = 1 m α i ∗ y i x i

b=yi(w)Txi b ∗ = y i − ( w ∗ ) T x i

为了提高模型的稳定性, b b ∗ 通常由下式求得:
b=1|S|iS[yi(w)Txi] b ∗ = 1 | S | ∑ i ∈ S [ y i − ( w ∗ ) T x i ]

其中, S S 为支持向量构成的集合。

对于任一新样本 z,可以通过下式给出其类别:

sign[(w)z+b]=sign(i=1mαiyixTiz+b) s i g n [ ( w ∗ ) z + b ∗ ] = s i g n ( ∑ i = 1 m α i ∗ y i x i T z + b ∗ )

2. Soft Margin SVM

1) 线性惩罚项

【式-4】优化问题表达式

minw,b s.t. 12wTw+Ci=1mξiyi(wTxi+b)1ξi,i=1,2,,mξi0,i=1,2,,m(11)(12)(13) (11) min w , b   1 2 w T w + C ∑ i = 1 m ξ i (12) s . t .   y i ( w T x i + b ) ≥ 1 − ξ i , i = 1 , 2 , ⋯ , m (13) ξ i ≥ 0 , i = 1 , 2 , ⋯ , m

【式-5】对偶问题表达式

maxαs.t. i=1mαi12i=1mj=1myiyjαiαjxTixj0αiC,i=1,2,,mi=1mαiyi=0(14)(15)(16) (14) max α ∑ i = 1 m α i − 1 2 ∑ i = 1 m ∑ j = 1 m y i y j α i α j x i T x j (15) s . t .   0 ≤ α i ≤ C , i = 1 , 2 , ⋅ , m (16) ∑ i = 1 m α i y i = 0

【式-6】互补松弛条件

αi[yi(xTiw+b)1+ξi]=0 α i ∗ [ y i ( x i T w ∗ + b ∗ ) − 1 + ξ i ] = 0

因此,支持向量是 在分类超平面margin以内的所有点。

注意,由 式-6 b=yiyiξi(w)Txi b ∗ = y i − y i ξ i − ( w ∗ ) T x i ,然而由于通过求解对偶问题并不能得到 ξi ξ i 的最优值,因此依照 xii=0 x i i = 0 计算即可,即

b=1|S|iS[yi(w)Txi] b ∗ = 1 | S | ∑ i ∈ S [ y i − ( w ∗ ) T x i ]

对新样本的判别函数与 basic SVM相同,即:

sign[(w)z+b]=sign(i=1mαiyixTiz+b) s i g n [ ( w ∗ ) z + b ∗ ] = s i g n ( ∑ i = 1 m α i ∗ y i x i T z + b ∗ )

2) 二次惩罚项

【式-7】优化问题表达式

minw,b s.t. 12wTw+Ci=1mξ2iyi(wTxi+b)1ξi,i=1,2,,mξi0,i=1,2,,m(17)(18)(19) (17) min w , b   1 2 w T w + C ∑ i = 1 m ξ i 2 (18) s . t .   y i ( w T x i + b ) ≥ 1 − ξ i , i = 1 , 2 , ⋯ , m (19) ξ i ≥ 0 , i = 1 , 2 , ⋯ , m

【式-8】对偶问题表达式

maxαs.t. i=1mαi12i=1mj=1myiyjαiαjxTixj14Ci=1m(αi+βi)2αi0,βi0,i=1,2,,mi=1mαiyi=0(20)(21)(22) (20) max α ∑ i = 1 m α i − 1 2 ∑ i = 1 m ∑ j = 1 m y i y j α i α j x i T x j − 1 4 C ∑ i = 1 m ( α i + β i ) 2 (21) s . t .   α i ≥ 0 , β i ≥ 0 , i = 1 , 2 , ⋅ , m (22) ∑ i = 1 m α i y i = 0

显然, βi=0 β i ∗ = 0 。因此对偶问题可以进一步写作:

maxαs.t. i=1mαi12i=1mj=1myiyjαiαjxTixj14Ci=1mα2iαi0,i=1,2,,mi=1mαiyi=0(23)(24)(25) (23) max α ∑ i = 1 m α i − 1 2 ∑ i = 1 m ∑ j = 1 m y i y j α i α j x i T x j − 1 4 C ∑ i = 1 m α i 2 (24) s . t .   α i ≥ 0 , i = 1 , 2 , ⋅ , m (25) ∑ i = 1 m α i y i = 0

【注意】

惩罚项可以是任意函数,但需要保证优化问题的凸性。与线性惩罚项相比,二次惩罚项对奇异点更敏感。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值