间隔与支持向量
给定训练样本集 D,分类学习最基本的想法就是基于训练、集 在样本空间中找到一个划分超平面、将不同类别的样本分开但能将训练样本分开的划分超平面可能有很多,如图 6.1所示,我们应该努力去找到哪一个昵?
在样本空间中,划分超平面可通过如下线性方程来描述:
w
t
+
b
=
0
w^t+b=0
wt+b=0
样本空间中任意点
x
x
x 到超平面
(
w
,
b
)
(w,b)
(w,b)的的距离可写为:
r
=
∣
w
t
x
+
b
∣
∣
∣
w
∣
∣
r=\frac{|w^tx+b|}{||w||}
r=∣∣w∣∣∣wtx+b∣
假设超平面
(
w
,
b
)
(w,b)
(w,b)的能将训练样本正确分类,即对于
(
x
i
,
y
i
)
∈
D
(x_i,y_i) \in D
(xi,yi)∈D
若
y
i
=
+
1
y_i=+1
yi=+1,则有
w
T
x
i
+
b
>
0
w^Tx_i+b>0
wTxi+b>0;若
y
i
=
−
1
y_i=-1
yi=−1,则有
w
T
x
i
+
b
<
0
w^Tx_i+b<0
wTxi+b<0.令
如图 6.2 所示,距离超平面最近的这几个训练样本点使上式 的等号成立,它们被称为"支持向量" (support vector) ,两个异类支持向量到超平面的距离之和为:
γ
=
2
∣
∣
w
∣
∣
\gamma = \frac{2}{||w||}
γ=∣∣w∣∣2
它被称为间隔:
欲找到具有"最大|间隔" (maximum margin) 的划分超平面,也就是要找
到能满足式上式中约束的参数w和b, 使得
γ
\gamma
γ最大,即
显然,为了最大化间隔, 仅需最大化
∣
∣
w
∣
∣
−
1
||w||^{-1}
∣∣w∣∣−1,这等价于最小化
∣
∣
w
∣
∣
2
||w||^2
∣∣w∣∣2于是,(6. 5)的可重写为
这就是支持向量机(Support Vector Machine ,简称 SVM) 的基本型.
对偶问题
我们希望求解式(6.6) 来得到大间隔划分超平面所对应的模型:
f
(
x
)
=
w
t
x
+
b
f(x)=w^tx+b
f(x)=wtx+b
对式(6.6) 使用拉格朗日乘子法可得到其"对偶问题" (dual problem).
体来说,对式(6.6) 的每条约束添加拉格朗日乘子
α
i
≥
0
\alpha_i≥0
αi≥0,则该问题的拉格朗日函数可写为:
其中
α
=
(
α
1
;
α
2
;
.
.
.
;
α
m
)
\alpha = (\alpha_1;\alpha_2;...;\alpha_m)
α=(α1;α2;...;αm),令
L
(
w
,
b
,
α
)
L(w,b,\alpha)
L(w,b,α)对w和b求导,的偏导为零可得
将式(6.9) 代人(6.8) ,即可将
L
(
w
,
b
,
α
)
L(w,b,\alpha)
L(w,b,α)中的 w和b消去,再考虑式(6.10) 的约束,就得到式(6.6) 的对偶问题:
解出
α
\alpha
α后,求出w与b即可得到模型:
软间隔与正则化
软间隔;
具体来 前面介绍的支持向 量机形式是要求所有样本均满足约束(6.3)所有样本都必须划 丘确,这称为"硬间隔" ,而软隔则是允许某些样本不满足约束:
当然,在最大化间隔的同时,不满足约束的样本应尽可能少.于是,优化目标可写为:
三种损失函数;
这就是常用 的"软间隔支持向量机"
支持向量回归