SVM Cost Function
J(θ)=C∑i=1m[yicost1(W⊺Xi+θ0)+(1−yi)cost0(W⊺Xi+θ0)]+∑j=1nλ2θ2j
J
(
θ
)
=
C
∑
i
=
1
m
[
y
i
cost
1
(
W
⊺
X
i
+
θ
0
)
+
(
1
−
y
i
)
cost
0
(
W
⊺
X
i
+
θ
0
)
]
+
∑
j
=
1
n
λ
2
θ
j
2
其中
W=⎛⎝⎜⎜θ1⋮θn⎞⎠⎟⎟,Xi=⎛⎝⎜⎜Xi,1⋮Xi,n⎞⎠⎟⎟,
W
=
(
θ
1
⋮
θ
n
)
,
X
i
=
(
X
i
,
1
⋮
X
i
,
n
)
,
θ=(θ0W),
θ
=
(
θ
0
W
)
,
cost0(x)=max(0,x−1),x∈R,
c
o
s
t
0
(
x
)
=
max
(
0
,
x
−
1
)
,
x
∈
R
,
cost1(x)=max(0,1−x),x∈R,
c
o
s
t
1
(
x
)
=
max
(
0
,
1
−
x
)
,
x
∈
R
,
Support Vector Machine’s Large Margin
当
C=+∞
C
=
+
∞
时,
minθJ(θ)
min
θ
J
(
θ
)
等价于:
maxθ1∥W∥
max
θ
1
‖
W
‖
s.t.
{W⊺Xi+θ0≥1,W⊺Xi+θ0≤−1,yi=1,yi=0,1≤i≤m,(1)
(1)
{
W
⊺
X
i
+
θ
0
≥
1
,
y
i
=
1
,
W
⊺
X
i
+
θ
0
≤
−
1
,
y
i
=
0
,
1
≤
i
≤
m
,
令超平面
π(θ)={X∈Rn:W⊺X+θ0=0}
π
(
θ
)
=
{
X
∈
R
n
:
W
⊺
X
+
θ
0
=
0
}
则任意一点
Xi
X
i
到
π(θ)
π
(
θ
)
的距离为
dXi,π(θ)=|W⊺Xi+θ0|∥W∥,1≤i≤m,
d
X
i
,
π
(
θ
)
=
|
W
⊺
X
i
+
θ
0
|
‖
W
‖
,
1
≤
i
≤
m
,
令集合
S={θ∈Rn+1:θ 满足条件 (1)}
S
=
{
θ
∈
R
n
+
1
:
θ
满足条件 (1)
}
集合
A={1∥W∥:θ=(θ0W)∈S}
A
=
{
1
‖
W
‖
:
θ
=
(
θ
0
W
)
∈
S
}
集合
B={min1≤i≤mdXi,π(θ):θ∈S}
B
=
{
min
1
≤
i
≤
m
d
X
i
,
π
(
θ
)
:
θ
∈
S
}
命题
假设 S≠∅, S ≠ ∅ , 则
- sup(A)=sup(B) sup ( A ) = sup ( B )
- 若 A A 有上界,则 存在,且 maxθ(A)=maxθ(B) max θ ( A ) = max θ ( B )
证明
- 由于
S≠∅,
S
≠
∅
,
因此
A≠∅,B≠∅,
A
≠
∅
,
B
≠
∅
,
∀θ∈S,dXi,π(θ)=|W⊺Xi+θ0|∥W∥≥1∥W∥,1≤i≤m, ∀ θ ∈ S , d X i , π ( θ ) = | W ⊺ X i + θ 0 | ‖ W ‖ ≥ 1 ‖ W ‖ , 1 ≤ i ≤ m ,
因此 1∥W∥≤min1≤i≤mdXi,π(θ) 1 ‖ W ‖ ≤ min 1 ≤ i ≤ m d X i , π ( θ )
故 sup(A)≤sup(B)(a) (a) sup ( A ) ≤ sup ( B )
令 k=1∥W∥min1≤i≤mdXi,π(θ) k = 1 ‖ W ‖ min 1 ≤ i ≤ m d X i , π ( θ )
则 1∥kW∥=1k∥W∥=min1≤i≤mdXi,π(θ)=min1≤i≤m|(kW)⊺Xi+kθ0|∥(kW)∥ 1 ‖ k W ‖ = 1 k ‖ W ‖ = min 1 ≤ i ≤ m d X i , π ( θ ) = min 1 ≤ i ≤ m | ( k W ) ⊺ X i + k θ 0 | ‖ ( k W ) ‖
于是 |(kW)⊺Xi+kθ0|≥1,1≤i≤m, | ( k W ) ⊺ X i + k θ 0 | ≥ 1 , 1 ≤ i ≤ m ,
则 kθ k θ 满足 (1),因此 kθ∈S, k θ ∈ S , 所以 min1≤i≤mdXi,π(θ)∈A, min 1 ≤ i ≤ m d X i , π ( θ ) ∈ A , 则 B⊆A B ⊆ A
故 sup(A)≥sup(B)(b) (b) sup ( A ) ≥ sup ( B )
由 (a), (b) 得 sup(A)=sup(B) sup ( A ) = sup ( B ) - 若 A A 有上界,由于函数 是闭集上的连续函数,因此 maxθ(A) max θ ( A ) 存在。由结论 1 得 maxθ(A)=maxθ(B) max θ ( A ) = max θ ( B )
推论
由于求得的 maxθ1∥W∥=maxθ(B) max θ 1 ‖ W ‖ = max θ ( B ) ,因此称 maxθ2∥W∥ max θ 2 ‖ W ‖ 为 large margin 、