松驰变量的理解是难点之一,也是很有意思的内容。
松驰变量
我们先描述一个事实:当搜寻范围扩大时,可能会找到更高的山、更低的谷,即
若
A
⊆
B
,
则
{
max
x
∈
A
f
(
x
)
⩽
max
x
∈
B
f
(
x
)
min
x
∈
A
f
(
x
)
⩾
min
x
∈
B
f
(
x
)
\begin{align} \text{若}\ A\subseteq B,\ \text{则}\ \begin{cases} \,\mathop{\max}\limits_{\boldsymbol{x}\in A}f(\boldsymbol{x})\leqslant \mathop{\max}\limits_{\boldsymbol{x}\in B}f(\boldsymbol{x}) \\ \,\mathop{\min}\limits_{\boldsymbol{x}\in A}f(\boldsymbol{x})\geqslant \mathop{\min}\limits_{\boldsymbol{x}\in B}f(\boldsymbol{x}) \\ \end{cases} \tag{6.16} \end{align}
若 A⊆B, 则 ⎩
⎨
⎧x∈Amaxf(x)⩽x∈Bmaxf(x)x∈Aminf(x)⩾x∈Bminf(x)(6.16)
设 1 − y i ( w T x i + b ) < 0 1-y_i(\boldsymbol{w}^\mathrm{T}\boldsymbol{x}_i+b)<0 1−yi(wTxi+b)<0的 i i i形成下标集 D − D_- D−, 1 − y i ( w T x i + b ) ⩾ 0 1-y_i(\boldsymbol{w}^\mathrm{T}\boldsymbol{x}_i+b)\geqslant 0 1−yi(wTxi+b)⩾0的 i i i形成下标集 D + D_+ D+,再作于关于点 ( w , b , ξ ) (\boldsymbol{w},b,\boldsymbol{\xi} ) (w,b,ξ)的集合: A = { ( w , b , ξ ) : ξ i = 1 − y i ( w T x i + b ) , ξ i ⩾ 0 } A=\{(\boldsymbol{w},b,\boldsymbol{\xi} ):\, \xi _i=1-y_i(\boldsymbol{w}^\mathrm{T}\boldsymbol{x}_i+b),\xi _i\geqslant 0\} A={(w,b,ξ):ξi=1−yi(wTxi+b),ξi⩾0}, B = { ( w , b , ξ ) : ξ i ⩾ 1 − y i ( w T x i + b ) , ξ i ⩾ 0 } B=\{(\boldsymbol{w},b,\boldsymbol{\xi} ):\, \xi _i\geqslant 1-y_i(\boldsymbol{w}^\mathrm{T}\boldsymbol{x}_i+b),\xi _i\geqslant 0\} B={(w,b,ξ):ξi⩾1−yi(wTxi+b),ξi⩾0}(这里的“ ⩾ \geqslant ⩾”也可以全都换成“ ⩽ \leqslant ⩽”),则有: A ⊆ B A\subseteq B A⊆B。
再在我们对优化目标【西瓜书式(6.34)】进行变换:
min
w
,
b
1
2
∣
∣
w
∣
∣
2
+
C
∑
i
=
1
m
max
(
0
,
1
−
y
i
(
w
T
x
i
+
b
)
)
=
min
w
,
b
1
2
∣
∣
w
∣
∣
2
+
C
∑
i
∈
D
+
⋃
D
−
max
(
0
,
1
−
y
i
(
w
T
x
i
+
b
)
)
=
min
w
,
b
1
2
∣
∣
w
∣
∣
2
+
C
(
∑
i
∈
D
+
(
1
−
y
i
(
w
T
x
i
+
b
)
)
+
∑
i
∈
D
−
0
)
=
min
w
,
b
1
2
∣
∣
w
∣
∣
2
+
C
∑
i
(
1
−
y
i
(
w
T
x
i
+
b
)
)
,
s
.
t
.
i
∈
D
+
=
min
w
,
b
1
2
∣
∣
w
∣
∣
2
+
C
∑
i
(
1
−
y
i
(
w
T
x
i
+
b
)
)
s
.
t
.
1
−
y
i
(
w
T
x
i
+
b
)
⩾
0
=
min
w
,
b
,
ξ
1
2
∣
∣
w
∣
∣
2
+
C
∑
i
ξ
i
s
.
t
.
ξ
i
=
1
−
y
i
(
w
T
x
i
+
b
)
,
ξ
i
⩾
0
=
min
w
,
b
,
ξ
1
2
∣
∣
w
∣
∣
2
+
C
∑
i
ξ
i
s
.
t
.
(
w
,
b
,
ξ
)
∈
A
⩾
min
w
,
b
,
ξ
1
2
∣
∣
w
∣
∣
2
+
C
∑
i
ξ
i
s
.
t
.
(
w
,
b
,
ξ
)
∈
B
(由式(6.16))
\begin{align} & \ \mathop{\min}\limits_{\boldsymbol{w},b}\frac{1}{2}||\boldsymbol{w}||^2+C\sum_{i=1}^m \max (0,1-y_i(\boldsymbol{w}^\mathrm{T}\boldsymbol{x}_i+b))\notag \\ & =\mathop{\min}\limits_{\boldsymbol{w},b} \frac{1}{2}||\boldsymbol{w}||^2+C\sum_{i\in D_+\bigcup D_-} \max (0,1-y_i(\boldsymbol{w}^\mathrm{T}\boldsymbol{x}_i+b))\notag \\ & =\mathop{\min}\limits_{\boldsymbol{w},b}\ \frac{1}{2}||\boldsymbol{w}||^2+C\left(\sum_{i\in D_+} (1-y_i(\boldsymbol{w}^\mathrm{T}\boldsymbol{x}_i+b))+\sum_{i\in D_-} 0\right)\notag \\ & =\mathop{\min}\limits_{\boldsymbol{w},b}\ \frac{1}{2}||\boldsymbol{w}||^2+C\sum_{i} (1-y_i(\boldsymbol{w}^\mathrm{T}\boldsymbol{x}_i+b)),\quad \mathrm{s.t.} \quad {i\in D_+}\notag \\ & =\mathop{\min}\limits_{\boldsymbol{w},b}\ \frac{1}{2}||\boldsymbol{w}||^2+C\sum_{i} (1-y_i(\boldsymbol{w}^\mathrm{T}\boldsymbol{x}_i+b))\notag \\ & \qquad \qquad \qquad \mathrm{s.t.} \quad 1-y_i(\boldsymbol{w}^\mathrm{T}\boldsymbol{x}_i+b)\geqslant 0\notag \\ & =\mathop{\min}\limits_{\boldsymbol{w},b,\boldsymbol{\xi}}\ \frac{1}{2}||\boldsymbol{w}||^2+C\sum_{i} \xi _i\notag \\ & \qquad \qquad \qquad \mathrm{s.t.} \quad \xi _i=1-y_i(\boldsymbol{w}^\mathrm{T}\boldsymbol{x}_i+b),\ \xi _i\geqslant 0\notag \\ & =\mathop{\min}\limits_{\boldsymbol{w},b,\boldsymbol{\xi}}\ \frac{1}{2}||\boldsymbol{w}||^2+C\sum_{i} \xi _i\notag \\ & \qquad \qquad \qquad \mathrm{s.t.} \quad (\boldsymbol{w},b,\boldsymbol{\xi}) \in A\notag \\ & \geqslant \mathop{\min}\limits_{\boldsymbol{w},b,\boldsymbol{\xi}}\ \frac{1}{2}||\boldsymbol{w}||^2+C\sum_{i} \xi _i\notag \\ & \qquad \qquad \qquad \mathrm{s.t.} \quad (\boldsymbol{w},b,\boldsymbol{\xi}) \in B \quad \text{(由式(6.16))} \tag{6.17} \end{align}
w,bmin21∣∣w∣∣2+Ci=1∑mmax(0,1−yi(wTxi+b))=w,bmin21∣∣w∣∣2+Ci∈D+⋃D−∑max(0,1−yi(wTxi+b))=w,bmin 21∣∣w∣∣2+C
i∈D+∑(1−yi(wTxi+b))+i∈D−∑0
=w,bmin 21∣∣w∣∣2+Ci∑(1−yi(wTxi+b)),s.t.i∈D+=w,bmin 21∣∣w∣∣2+Ci∑(1−yi(wTxi+b))s.t.1−yi(wTxi+b)⩾0=w,b,ξmin 21∣∣w∣∣2+Ci∑ξis.t.ξi=1−yi(wTxi+b), ξi⩾0=w,b,ξmin 21∣∣w∣∣2+Ci∑ξis.t.(w,b,ξ)∈A⩾w,b,ξmin 21∣∣w∣∣2+Ci∑ξis.t.(w,b,ξ)∈B(由式(6.16))(6.17)
这即为【西瓜书式(6.35)】,由此将无约束的目标【西瓜书式(6.34)】,变为有约束的目标【西瓜书式(6.35)】,
此时,约束变量
ξ
i
{\xi }_i
ξi为自变量,称为“松驰变量”,它为一组
ξ
\boldsymbol{\xi }
ξ。
本文为原创,您可以:
- 点赞(支持博主)
- 收藏(待以后看)
- 转发(他考研或学习,正需要)
- 评论(或讨论)
- 引用(支持原创)
- 不侵权