【学习内容:西瓜书与南瓜书:第六章–支持向量机】
【一、基本定义】
样本空间中任意点x到超平面
(
ω
,
b
)
\left ( \omega ,b \right )
(ω,b) 的距离为:
r
=
∣
ω
T
x
+
b
∣
∥
ω
∥
r=\frac{\left | \omega ^{T} x+b \right | }{\left \| \omega \right \| }
r=∥ω∥
ωTx+b
假设超平面
(
ω
,
b
)
\left ( \omega ,b \right )
(ω,b)可以将样本进行正确的分类,即存在
{
ω
T
+
b
≥
+
1
,
y
i
=
+
1
ω
T
+
b
≤
−
1
,
y
i
=
−
1
\left\{ \begin{aligned} \omega ^{T}+b\ge +1,y_{i} =+1 \\ \omega ^{T}+b\le -1,y_{i} =-1 \end{aligned} \right.
{ωT+b≥+1,yi=+1ωT+b≤−1,yi=−1
⇓
\Downarrow
⇓
y
i
(
ω
T
x
i
+
b
)
≥
1
,
i
=
1
,
2
,
⋯
,
n
y_{i} \left ( \omega ^{T} x_{i} +b \right ) \ge 1,i=1,2,\cdots ,n
yi(ωTxi+b)≥1,i=1,2,⋯,n
【定义:支持向量】距离超平面最近的这几个训练样本点使上式的等号成立,它们被称之为“支持向量”。
两个异类支持向量到超平面的距离之和为
γ
=
2
∥
ω
∥
\gamma =\frac{2}{\left \| \omega \right \| }
γ=∥ω∥2
也被称为“间隔”。
则最优化问题变成
max
ω
,
b
2
∥
ω
∥
\max_{\omega ,b} \frac{2}{\left \| \omega \right \| }
ω,bmax∥ω∥2
s
.
t
.
y
i
(
ω
T
x
i
+
b
)
≥
1
,
i
=
1
,
2
,
⋯
,
m
.
s.t. \, \, y_{i} \left ( \omega ^{T}x_{i} +b \right ) \ge 1, \, \,i=1,2,\cdots ,m.
s.t.yi(ωTxi+b)≥1,i=1,2,⋯,m.
变换下形式,改成
min
ω
,
b
1
2
∥
ω
∥
2
\min_{\omega ,b} \frac{1}{2} \left \| \omega \right \|^{2}
ω,bmin21∥ω∥2
s
.
t
.
y
i
(
ω
T
x
i
+
b
)
≥
1
,
i
=
1
,
2
,
⋯
,
m
.
s.t. \, \, y_{i} \left ( \omega ^{T}x_{i} +b \right ) \ge 1, \, \,i=1,2,\cdots ,m.
s.t.yi(ωTxi+b)≥1,i=1,2,⋯,m.
即为支持向量机(Support Vector Machine,简称SVM)的基本型。
【二、对偶问题】
对于一般地约束优化问题
min
f
(
x
)
s.t.
g
i
(
x
)
⩽
0
i
=
1
,
2
,
…
,
m
h
j
(
x
)
=
0
j
=
1
,
2
,
…
,
n
\begin{array}{lll} \min & f(\boldsymbol{x}) \\ \text { s.t. } & g_{i}(\boldsymbol{x}) \leqslant 0 \quad i=1,2, \ldots, m \\ & h_{j}(\boldsymbol{x})=0 \quad j=1,2, \ldots, n \end{array}
min s.t. f(x)gi(x)⩽0i=1,2,…,mhj(x)=0j=1,2,…,n
若目标函数
f
(
x
)
f\left ( x \right )
f(x) 是凸函数,约束集合是凸集,则称上述优化问题为凸优化问题,特别地,
g
i
(
x
)
g_{i} \left ( x \right )
gi(x) 是凸函数,
h
i
(
x
)
h_{i} \left ( x \right )
hi(x)是线性函数时,约束集合为凸集,该优化问题为凸优化问题。
显然,针对支持向量机的函数进行分析,可得到支持向量机是一个凸优化问题。
拉格朗日函数为:
L
(
x
,
μ
,
λ
)
=
f
(
x
)
+
∑
i
=
1
m
μ
i
g
i
(
x
)
+
∑
j
=
1
n
λ
j
h
j
L\left ( x,\mu ,\lambda \right ) =f\left ( x \right ) +\sum_{i=1}^{m} \mu_{i} g_{i}(\boldsymbol{x})+\sum_{j=1}^{n} \lambda_{j} h_{j}
L(x,μ,λ)=f(x)+i=1∑mμigi(x)+j=1∑nλjhj
拉格朗日对偶函数:
Γ
(
μ
,
λ
)
=
inf
x
∈
D
L
(
x
,
μ
,
λ
)
=
inf
x
∈
D
(
f
(
x
)
+
∑
i
=
1
m
μ
i
g
i
(
x
)
+
∑
j
=
1
n
λ
j
h
j
(
x
)
)
\Gamma(\boldsymbol{\mu}, \boldsymbol{\lambda})=\inf _{\boldsymbol{x} \in D} L(\boldsymbol{x}, \boldsymbol{\mu}, \boldsymbol{\lambda})=\inf _{\boldsymbol{x} \in D}\left(f(\boldsymbol{x})+\sum_{i=1}^{m} \mu_{i} g_{i}(\boldsymbol{x})+\sum_{j=1}^{n} \lambda_{j} h_{j}(\boldsymbol{x})\right)
Γ(μ,λ)=x∈DinfL(x,μ,λ)=x∈Dinf(f(x)+i=1∑mμigi(x)+j=1∑nλjhj(x))
对偶函数重要性质:
(1)无论上述优化问题是否是凸优化问题,其对偶函数
Γ
(
μ
,
λ
)
\Gamma(\boldsymbol{\mu}, \boldsymbol{\lambda})
Γ(μ,λ)恒为凹函数;
(2)当
μ
⪰
0
\mu \succeq 0
μ⪰0时,
Γ
(
μ
,
λ
)
\Gamma(\boldsymbol{\mu}, \boldsymbol{\lambda})
Γ(μ,λ)构成了上述优化问题最优值的下界,也即
Γ
(
μ
,
λ
)
≤
p
∗
\Gamma(\boldsymbol{\mu}, \boldsymbol{\lambda})\le p^{*}
Γ(μ,λ)≤p∗.
参考资料与文献
1、周志华. 机器学习[M]. 北京:清华大学出版社,2016.
2、谢文睿 秦州 贾彬彬 . 机器学习公式详解 第 2 版[M]. 人民邮电出版社,2023
3、感谢Datawhale小组所做的贡献,本次学习主要参考视频:https://www.bilibili.com/video/BV1Mh411e7VU?p=9&vd_source=7f1a93b833d8a7093eb3533580254fe4。