线性可分支持向量机最大间隔唯一性证明
《统计学习方法》定理7.1中 唯一性的证明:
假设问题(7.13)~(7.14)存在两个最优解(
w∗1,b∗1
w
1
∗
,
b
1
∗
)和(
w∗2,b∗2
w
2
∗
,
b
2
∗
),则
w∗1和w∗2
w
1
∗
和
w
2
∗
的长度相同,即
||w∗1||=||w∗2||=c
|
|
w
1
∗
|
|
=
|
|
w
2
∗
|
|
=
c
,其中c是一个常数。令
w=w∗1+w∗22
w
=
w
1
∗
+
w
2
∗
2
,
b=b∗1+b∗22
b
=
b
1
∗
+
b
2
∗
2
,将(
w∗1,b∗1
w
1
∗
,
b
1
∗
)和(
w∗2,b∗2
w
2
∗
,
b
2
∗
)分别带入到式(7.14)
yi(w⋅xi+b)−1>=0
y
i
(
w
⋅
x
i
+
b
)
−
1
>=
0
,有
yi(w∗1⋅xi+b∗1)−1>=0
y
i
(
w
1
∗
⋅
x
i
+
b
1
∗
)
−
1
>=
0
和
yi(w∗2⋅xi+b∗2)−1>=0
y
i
(
w
2
∗
⋅
x
i
+
b
2
∗
)
−
1
>=
0
,
两式相加除以2,就有
yi(w∗1+w∗22⋅xi+b∗1+b∗22)−1>=0
y
i
(
w
1
∗
+
w
2
∗
2
⋅
x
i
+
b
1
∗
+
b
2
∗
2
)
−
1
>=
0
。所以,(w, b)是问题(7.13)~(7.14)的可行解,从而有
上式表明, ||w||=12||w∗1||+12||w∗2||=c | | w | | = 1 2 | | w 1 ∗ | | + 1 2 | | w 2 ∗ | | = c ,如果有 w∗1=λw∗2 w 1 ∗ = λ w 2 ∗ ,则式 ||w||=12||w∗1||+12||w∗2|| | | w | | = 1 2 | | w 1 ∗ | | + 1 2 | | w 2 ∗ | | 会等价于 |λ+1|⋅||w∗2||2=|λ|2||w∗2||+12||w∗2|| | λ + 1 | ⋅ | | w 2 ∗ | | 2 = | λ | 2 | | w 2 ∗ | | + 1 2 | | w 2 ∗ | | ,又因为 w∗1和w∗2 w 1 ∗ 和 w 2 ∗ 要满足式(7.13)使 ||w||2 | | w | | 2 最小,所以 λ=1 λ = 1 ,即 w∗1=w∗2 w 1 ∗ = w 2 ∗ 。
由此两个最优解( w∗1,b∗1 w 1 ∗ , b 1 ∗ )和( w∗2,b∗2 w 2 ∗ , b 2 ∗ )可以写为( w∗,b∗1 w ∗ , b 1 ∗ )和( w∗,b∗2 w ∗ , b 2 ∗ )。
再证
b∗1=b∗2
b
1
∗
=
b
2
∗
:
设
x′1和x′2
x
1
′
和
x
2
′
是集合
{xi|yi=+1}
{
x
i
|
y
i
=
+
1
}
中分别对应于(
w∗,b∗1
w
∗
,
b
1
∗
)和(
w∗,b∗2
w
∗
,
b
2
∗
)使得问题(7.14)的不等式等号成立的点,
x′′1和x′′2
x
1
″
和
x
2
″
是集合
{xi|yi=−1}
{
x
i
|
y
i
=
−
1
}
中分别对应于(
w∗,b∗1
w
∗
,
b
1
∗
)和(
w∗,b∗2
w
∗
,
b
2
∗
)使得问题(7.14)的不等式等号成立的点,则有方程组
(1)
1⋅(w∗⋅x′1+b1)−1=0
1
⋅
(
w
∗
⋅
x
1
′
+
b
1
)
−
1
=
0
(2)
1⋅(w∗⋅x′2+b2)−1=0
1
⋅
(
w
∗
⋅
x
2
′
+
b
2
)
−
1
=
0
(3)
(−1)⋅(w∗⋅x′′1+b1)−1=0
(
−
1
)
⋅
(
w
∗
⋅
x
1
″
+
b
1
)
−
1
=
0
(4)
(−1)⋅(w∗⋅x′′2+b2)−1=0
(
−
1
)
⋅
(
w
∗
⋅
x
2
″
+
b
2
)
−
1
=
0
(1)-(3),得到
b1=12(w∗⋅x′1+w∗⋅x′′1)
b
1
=
1
2
(
w
∗
⋅
x
1
′
+
w
∗
⋅
x
1
″
)
(2)-(4),得到
b2=12(w∗⋅x′2+w∗⋅x′′2)
b
2
=
1
2
(
w
∗
⋅
x
2
′
+
w
∗
⋅
x
2
″
)
两式相减,得
又因为
(w∗⋅x′2+b1)>=1=(w∗⋅x′1+b1) ( w ∗ ⋅ x 2 ′ + b 1 ) >= 1 = ( w ∗ ⋅ x 1 ′ + b 1 ) 和
(w∗⋅x′1+b2)>=1=(w∗⋅x′2+b2) ( w ∗ ⋅ x 1 ′ + b 2 ) >= 1 = ( w ∗ ⋅ x 2 ′ + b 2 ) ,所以有
w∗(x′2−x′1)>=0 w ∗ ( x 2 ′ − x 1 ′ ) >= 0 和 w∗(x′1−x′2)>=0 w ∗ ( x 1 ′ − x 2 ′ ) >= 0 ,则 w∗(x′1−x′2)=0 w ∗ ( x 1 ′ − x 2 ′ ) = 0 。同理有 w∗(x′′1−x′′2)=0 w ∗ ( x 1 ″ − x 2 ″ ) = 0
因此, b∗1−b∗2=0 b 1 ∗ − b 2 ∗ = 0 ,即 b∗1=b∗2 b 1 ∗ = b 2 ∗ 。
所以最优解是唯一的。