线性可分支持向量机
线性可分问题: 可以在特征空间中找到一个分离的超平面 w T x + b = 0 w^Tx+b=0 wTx+b=0将特征空间划分为正例和负例。通过分类决策函数 f ( x ) = s i g n ( w T x + b ) f(x)=sign(w^Tx+b) f(x)=sign(wTx+b)可以完美划分正负例
函数间隔和几何间隔
函数间隔:
γ
^
i
=
y
i
(
w
T
x
i
+
b
)
\hat \gamma_i=y_i(w^Tx_i+b)
γ^i=yi(wTxi+b)
超平面关于训练数据集的函数间隔:
γ
^
=
m
i
n
i
γ
^
i
\hat\gamma=min_i \hat \gamma_i
γ^=miniγ^i
comment:
如果将
w
,
b
w,b
w,b同比例变化,则超平面不变,但是函数间隔会发生变化,因此对
w
w
w加约束
∥
w
∥
=
1
\|w\|=1
∥w∥=1,此时的函数间隔对应几何间隔
样本点距离:
γ
i
=
y
i
(
w
T
∥
w
∥
x
i
+
b
∥
w
∥
)
\gamma_i=y_i(\frac{w^T}{\|w\|}x_i+\frac{b}{\|w\|})
γi=yi(∥w∥wTxi+∥w∥b)
超平面关于训练数据集的几何间隔:
γ
=
m
i
n
i
γ
i
\gamma=min_i \gamma_i
γ=miniγi
间隔最大化
对训练数据集找到几何间隔最大的超平面对训练数据集进行分类,要将最难分的正负例分开,几何间隔代表这种分类的确信度
对应优化问题
m
a
x
w
,
b
γ
s
.
t
.
y
i
(
w
T
∥
w
∥
x
i
+
b
∥
w
∥
)
≥
γ
,
i
=
1
,
⋯
,
N
max _{w,b} \gamma\\ s.t. \ \ y_i(\frac{w^T}{\|w\|}x_i+\frac{b}{\|w\|})\geq\gamma, i=1,\cdots,N
maxw,bγs.t. yi(∥w∥wTxi+∥w∥b)≥γ,i=1,⋯,N
也可以用函数间隔将上述问题进行改写
m
a
x
w
,
b
γ
^
∥
w
∥
s
.
t
.
y
i
(
w
T
x
i
+
b
)
≥
γ
^
,
i
=
1
,
⋯
,
N
max _{w,b} \frac{\hat\gamma}{\|w\|}\\ s.t. \ \ y_i(w^Tx_i+b)\geq\hat\gamma, i=1,\cdots,N
maxw,b∥w∥γ^s.t. yi(wTxi+b)≥γ^,i=1,⋯,N
函数间隔不影响以上问题的求解,因此固定函数间隔
γ
^
=
1
\hat\gamma=1
γ^=1
m
i
n
w
,
b
1
2
∥
w
∥
2
s
.
t
.
y
i
(
w
T
x
i
+
b
)
−
1
≥
0
,
i
=
1
,
⋯
,
N
min_{w,b} \frac{1}{2}\|w\|^2\\ s.t. \ \ y_i(w^Tx_i+b)-1\geq0, i=1,\cdots,N
minw,b21∥w∥2s.t. yi(wTxi+b)−1≥0,i=1,⋯,N
以上可以得到一个凸二次规划问题
支持向量
在
w
T
X
+
B
=
1
&
−
1
w^TX+B=1 \&-1
wTX+B=1&−1的点
对偶算法
对偶问题
原问题与对偶问题的关系
![在这里插入图片描述](https://img-blog.csdnimg.cn/20201220123205259.png#pic_center
线性支持向量机和软间隔最大化
现实中所有问题不一定都能够完全线性可分
可以引入一个松弛变量
ξ
i
≥
0
\xi_i\geq0
ξi≥0
约束条件:
y
i
(
w
⋅
x
i
+
b
)
≥
1
−
ξ
i
y_i(w·x_i+b)\geq1-\xi_i
yi(w⋅xi+b)≥1−ξi
目标函数:
1
2
∥
w
∥
2
+
C
∑
i
ξ
i
\frac{1}{2}\|w\|^2+C\sum_i \xi_i
21∥w∥2+Ci∑ξi
软间隔最大化问题:
合页损失函数(hinge loss function)
线性支持向量机等价于最小化以下目标函数
∑
i
[
1
−
y
i
(
w
⋅
x
i
+
b
)
+
]
+
λ
∥
w
∥
2
\sum_i [1-y_i(w·x_i+b)_+]+\lambda \|w\|^2
i∑[1−yi(w⋅xi+b)+]+λ∥w∥2
其中
[
x
]
+
=
m
a
x
(
x
,
0
)
[x]_+=max(x,0)
[x]+=max(x,0)
合页损失函数是0-1损失函数的上届,这里合页损失函数只有确信度足够高才是0
非线性支持向量机和核函数
非线性分类问题
如果能用
R
n
R^n
Rn空间内的一个超曲面将正负例分开,那么称这个问题为非线性可分问题
基本想法:
通过一个非线性变换,将输入空间对应以个特征空间,使输入空间中的超曲面模型对应于特征空间中的超平面模型
核函数定义
如果存在一个从
X
→
H
X\rightarrow H
X→H的映射:
ϕ
(
x
)
:
X
→
H
\phi(x):X\rightarrow H
ϕ(x):X→H
使得对于所有的
x
,
z
∈
X
x,z\in X
x,z∈X,函数
K
(
x
,
z
)
K(x,z)
K(x,z)满足条件
K
(
X
,
Z
)
=
ϕ
(
x
)
⋅
ϕ
(
z
)
K(X,Z)=\phi(x)·\phi(z)
K(X,Z)=ϕ(x)⋅ϕ(z)
则称
K
(
x
,
z
)
K(x,z)
K(x,z)为核函数,
ϕ
(
x
)
⋅
ϕ
(
z
)
\phi(x)·\phi(z)
ϕ(x)⋅ϕ(z)为
ϕ
(
x
)
\phi(x)
ϕ(x) 和
ϕ
(
z
)
\phi(z)
ϕ(z)的内积
注:
(1)特征空间一般是高维的,甚至是无穷维的
(2)以上映射函数不是唯一的
核技巧在支持向量机中的应用
在对偶问题的目标函数,内积
x
i
⋅
x
j
x_i·x_j
xi⋅xj可以用核函数来代替
K
(
x
i
,
x
j
)
K(x_i,x_j)
K(xi,xj)代替,此时对偶问题的目标函数为
W
(
α
)
=
1
2
∑
i
N
∑
j
N
α
i
α
j
y
i
y
j
k
(
x
i
,
x
j
)
−
∑
i
N
α
i
W(\alpha)=\frac{1}{2}\sum_i^N\sum_j^N\alpha_i\alpha_jy_iy_jk(x_i,x_j)-\sum_i^N\alpha_i
W(α)=21i∑Nj∑Nαiαjyiyjk(xi,xj)−i∑Nαi
同时分类决策函数的内积也用核函数代替
f
(
x
)
=
sign
(
∑
i
α
i
∗
y
i
ϕ
(
x
i
)
⋅
ϕ
(
x
)
+
b
∗
)
=
sign
(
∑
i
α
i
∗
y
i
K
(
x
i
,
x
)
+
b
∗
)
f(x)=\operatorname{sign}\left(\sum_{i} \alpha_{i}^{*} y_{i} \phi\left(x_{i}\right) \cdot \phi(x)+b^{*}\right)=\operatorname{sign}\left(\sum_{i} \alpha_{i}^{*} y_{i} K\left(x_{i}, x\right)+b^{*}\right)
f(x)=sign(∑iαi∗yiϕ(xi)⋅ϕ(x)+b∗)=sign(∑iαi∗yiK(xi,x)+b∗)
因此不需要显式的定义特征空间和映射函数
正定核
正定核充要条件
定理1:
(正定核的充要条件)设
K
:
x
×
x
→
R
K:x\times x \rightarrow R
K:x×x→R为对称函数,
K
(
X
⋅
Z
)
K(X·Z)
K(X⋅Z)为正定核函数的充要条件是对于任意的
x
i
∈
X
(
i
=
1
,
⋯
,
m
)
,
K
(
x
,
z
)
x_i \in X(i=1,\cdots ,m),K(x,z)
xi∈X(i=1,⋯,m),K(x,z)对应的Gram矩阵:
K
=
[
K
(
x
i
,
x
j
)
]
m
×
m
K=[K(x_i,x_j)]_{m\times m}
K=[K(xi,xj)]m×m是半正定矩阵
常用核函数
多项式核函数
k
(
x
⋅
z
)
=
(
x
⋅
z
+
1
)
p
k(x·z)=(x·z+1)^p
k(x⋅z)=(x⋅z+1)p
高斯核函数
k
(
x
⋅
z
)
=
e
x
p
(
−
∥
x
−
z
∥
2
2
σ
2
)
k(x·z)=exp(-\frac{\|x-z\|^2}{2\sigma^2})
k(x⋅z)=exp(−2σ2∥x−z∥2)