第七章支持向量机.7.2间隔分离最大化的存在唯一性

文章目录


本课程来自深度之眼,部分截图来自课程视频以及李航老师的《统计学习方法》第二版。
公式输入请参考: 在线Latex公式
定理7.1(最大间隔分离超平面的存在唯一性)若训练数据集T线性可分,则可将训练数据集中的样本点完全正确分开的最大间隔分离超平面存在且唯一。

存在性

min ⁡ w , b 1 2 ∣ ∣ w ∣ ∣ 2 s.t. y i ( w ⋅ x i + b ) − 1 ≥ 0 i = 1 , 2 , ⋯   , N \underset{w,b}{\min}\cfrac{1}{2}||w||^2 \\ \text{s.t.}\quad y_i\left(w\cdot x_i+b\right)-1\ge0\quad i = 1,2,\cdots,N w,bmin21w2s.t.yi(wxi+b)10i=1,2,,N
由于训练数据集线性可分,所以算法一定存在可行解。又由于目标函数又下界,所以最优化问题必有解。由于训练数据中既有正类点又有负类点,所以 ( w , b ) = ( 0 , b ) (w,b)=(0,b) (w,b)=(0,b)不是最优化的可行解,因此最优解必定满足 w w w不等于0,由此可知分离超平面的存在性。

唯一性

假设问题存在两个最优解 ( w 1 ∗ , b 1 ∗ ) , ( w 2 ∗ , b 2 ∗ ) (w_1^*,b_1^*),(w_2^*,b_2^*) (w1,b1),(w2,b2),根据条件中的式子可知,两个最优解均能使得 1 2 ∣ ∣ w ∣ ∣ 2 \cfrac{1}{2}||w||^2 21w2最小,因此有:
1 2 ∣ ∣ w 1 ∗ ∣ ∣ 2 = 1 2 ∣ ∣ w 2 ∗ ∣ ∣ 2 = c / 2 \cfrac{1}{2}||w_1^*||^2=\cfrac{1}{2}||w_2^*||^2=c/2 21w12=21w22=c/2
因此我们如果假设最小值是常数 c / 2 c/2 c/2,则有:
∣ ∣ w 1 ∗ ∣ ∣ = ∣ ∣ w 2 ∗ ∣ ∣ = c ||w_1^*||=||w_2^*||=c w1=w2=c
w = w 1 ∗ + w 2 ∗ 2 , b = b 1 ∗ + b 2 ∗ 2 w=\cfrac{w_1^*+w_2^*}{2},b=\cfrac{b_1^*+b_2^*}{2} w=2w1+w2,b=2b1+b2,从下面推导可以知道 ( w , b ) (w,b) (w,b)是问题的可行解:
y i ( w ⋅ x + b ) − 1 = y i ( w 1 ∗ + w 2 ∗ 2 ⋅ x + b 1 ∗ + b 2 ∗ 2 ) − 1 = 1 2 [ y i ( ( w 1 ∗ + w 2 ∗ ) ⋅ x + b 1 ∗ + b 2 ∗ ) − 2 ] = 1 2 ( y i w 1 ∗ x + y i b 1 ∗ − 1 + y i w 2 ∗ x + y i b 2 ∗ − 1 ) y_i\left(w\cdot x+b\right)-1\\ =y_i\left(\cfrac{w_1^*+w_2^*}{2}\cdot x+\cfrac{b_1^*+b_2^*}{2}\right)-1\\ =\cfrac{1}{2}\left[y_i\left((w_1^*+w_2^*)\cdot x+b_1^*+b_2^*\right)-2\right]\\ =\cfrac{1}{2}(y_iw_1^*x+y_ib_1^*-1+y_iw_2^*x+y_ib_2^*-1) yi(wx+b)1=yi(2w1+w2x+2b1+b2)1=21[yi((w1+w2)x+b1+b2)2]=21(yiw1x+yib11+yiw2x+yib21)
根据以上推导结果我们可以得到如下关系:
c ≤ ∣ ∣ w ∣ ∣ = ∣ ∣ w 1 ∗ + w 2 ∗ 2 ∣ ∣ = ∣ ∣ 1 2 w 1 ∗ + 1 2 w 2 ∗ ∣ ∣ ≤ ∣ ∣ 1 2 w 1 ∗ ∣ ∣ + ∣ ∣ 1 2 w 2 ∗ ∣ ∣ = c c\le||w||=||\cfrac{w_1^*+w_2^*}{2}||=||\cfrac{1}{2}w_1^*+\cfrac{1}{2}w_2^*||\le||\cfrac{1}{2}w_1^*||+||\cfrac{1}{2}w_2^*||=c cw=2w1+w2=21w1+21w221w1+21w2=c
因此上式中的等号成立:
∣ ∣ w ∣ ∣ = ∣ ∣ 1 2 w 1 ∗ ∣ ∣ + ∣ ∣ 1 2 w 2 ∗ ∣ ∣ ||w||=||\cfrac{1}{2}w_1^*||+||\cfrac{1}{2}w_2^*|| w=21w1+21w2
向量存在以上关系,可以知道 w 1 ∗ , w 2 ∗ w_1^*,w_2^* w1,w2必然同向,因此可以写成:
w 1 ∗ = λ w 2 ∗ , ∣ λ ∣ = 1 w_1^*=\lambda w_2^*,|\lambda|=1 w1=λw2,λ=1
如果 λ = − 1 \lambda=-1 λ=1,则 w = w 1 ∗ + w 2 ∗ 2 = 0 w=\cfrac{w_1^*+w_2^*}{2}=0 w=2w1+w2=0 ( w , b ) (w,b) (w,b)不是问题可行解,矛盾。
因此必有 λ = 1 \lambda=1 λ=1
w 1 ∗ = w 2 ∗ w_1^*=w_2^* w1=w2
两个最优解 ( w 1 ∗ , b 1 ∗ ) , ( w 2 ∗ , b 2 ∗ ) (w_1^*,b_1^*),(w_2^*,b_2^*) (w1,b1),(w2,b2)可以写为 ( w ∗ , b 1 ∗ ) , ( w ∗ , b 2 ∗ ) (w^*,b_1^*),(w^*,b_2^*) (w,b1),(w,b2)。再证 b 1 ∗ = b 2 ∗ b_1^*=b_2^* b1=b2
假设 x 1 ′ , x 2 ′ x_1',x_2' x1,x2是集合 { x i ∣ y i = − 1 } \{x_i|y_i=-1\} {xiyi=1}中对应 ( w ∗ , b 1 ∗ ) , ( w ∗ , b 2 ∗ ) (w^*,b_1^*),(w^*,b_2^*) (w,b1),(w,b2)使得问题的不等式等号成立的点; x 1 ′ ′ , x 2 ′ ′ x_1'',x_2'' x1,x2是集合 { x i ∣ y i = 1 } \{x_i|y_i=1\} {xiyi=1}中对应 ( w ∗ , b 1 ∗ ) , ( w ∗ , b 2 ∗ ) (w^*,b_1^*),(w^*,b_2^*) (w,b1),(w,b2)使得问题的不等式等号成立的点。
意思就是一撇是在超平面的正分类( y i = 1 y_i=1 yi=1)临界面上的点(满足约束条件的等号),两撇是负分类( y i = − 1 y_i=-1 yi=1)临界面上的点。
y i ( w ∗ ⋅ x 1 ′ + b 1 ∗ ) − 1 = y i ( w ∗ ⋅ x 1 ′ ′ + b 1 ∗ ) − 1 = 0 w ∗ ⋅ x 1 ′ + b 1 ∗ = − ( w ∗ ⋅ x 1 ′ ′ + b 1 ∗ ) − 2 b 1 ∗ = w ∗ ⋅ x 1 ′ + w ∗ ⋅ x 1 ′ ′ b 1 ∗ = − 1 2 ( w ∗ ⋅ x 1 ′ + w ∗ ⋅ x 1 ′ ′ ) y_i\left(w^*\cdot x_1'+b_1^*\right)-1=y_i\left(w^*\cdot x_1''+b_1^*\right)-1=0\\ w^*\cdot x_1'+b_1^*=-(w^*\cdot x_1''+b_1^*)\\ -2b_1^*=w^*\cdot x_1'+w^*\cdot x_1''\\ b_1^*=-\cfrac{1}{2}(w^*\cdot x_1'+w^*\cdot x_1'') yi(wx1+b1)1=yi(wx1+b1)1=0wx1+b1=(wx1+b1)2b1=wx1+wx1b1=21(wx1+wx1)
同理:
b 2 ∗ = − 1 2 ( w ∗ ⋅ x 2 ′ + w ∗ ⋅ x 2 ′ ′ ) b_2^*=-\cfrac{1}{2}(w^*\cdot x_2'+w^*\cdot x_2'') b2=21(wx2+wx2)
两个式子相减:
b 1 ∗ − b 2 ∗ = − 1 2 [ ( w ∗ ⋅ x 1 ′ + w ∗ ⋅ x 1 ′ ′ ) − ( w ∗ ⋅ x 2 ′ + w ∗ ⋅ x 2 ′ ′ ) ] = − 1 2 [ w ∗ ⋅ ( x 1 ′ − x 2 ′ ) + w ∗ ⋅ ( x 1 ′ ′ − x 2 ′ ′ ) ] (1) b_1^*-b_2^*=-\cfrac{1}{2}[(w^*\cdot x_1'+w^*\cdot x_1'')-(w^*\cdot x_2'+w^*\cdot x_2'')]\\ =-\cfrac{1}{2}[w^*\cdot(x_1'-x_2')+w^*\cdot(x_1''-x_2'')]\tag1 b1b2=21[(wx1+wx1)(wx2+wx2)]=21[w(x1x2)+w(x1x2)](1)
由于 x 1 ′ x_1' x1是所在超平面的临界点(支持向量),因此 x 2 ′ x_2' x2对于 x 1 ′ x_1' x1是所在超平面而言,肯定要远一些:
w ∗ ⋅ x 2 ′ + b 1 ∗ ≥ 1 = w ∗ ⋅ x 1 ′ + b 1 ∗ w ∗ ⋅ x 1 ′ + b 2 ∗ ≥ 1 = w ∗ ⋅ x 2 ′ + b 2 ∗ w^*\cdot x_2'+b_1^*\ge1=w^*\cdot x_1'+b_1^*\\ w^*\cdot x_1'+b_2^*\ge1=w^*\cdot x_2'+b_2^* wx2+b11=wx1+b1wx1+b21=wx2+b2
化简一下:
w ∗ ⋅ x 2 ′ ≥ w ∗ ⋅ x 1 ′ w ∗ ⋅ x 1 ′ ≥ w ∗ ⋅ x 2 ′ w^*\cdot x_2'\ge w^*\cdot x_1'\\ w^*\cdot x_1'\ge w^*\cdot x_2' wx2wx1wx1wx2
因此左右必定相等:
w ∗ ⋅ x 2 ′ = w ∗ ⋅ x 1 ′ w ∗ ⋅ ( x 1 ′ − x 2 ′ ) = 0 w^*\cdot x_2'= w^*\cdot x_1'\\ w^*\cdot (x_1'-x_2')=0 wx2=wx1w(x1x2)=0
同理:
w ∗ ⋅ ( x 1 ′ ′ − x 2 ′ ′ ) = 0 w^*\cdot (x_1''-x_2'')=0 w(x1x2)=0
把这个结果带入1后:
b 1 ∗ − b 2 ∗ = 0 b_1^*-b_2^*=0 b1b2=0

w 1 ∗ = w 2 ∗ , b 1 ∗ = b 2 ∗ w_1^*=w_2^*,b_1^*=b_2^* w1=w2,b1=b2
可知,两个最优解 ( w 1 ∗ , b 1 ∗ ) , ( w 2 ∗ , b 2 ∗ ) (w_1^*,b_1^*),(w_2^*,b_2^*) (w1,b1),(w2,b2)相同,唯一性得证。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

oldmao_2000

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值