目录
-间隔与支持向量
-对偶问题
-核函数
-软间隔与正则化
-支持向量回归
-核方法
间隔与支持向量
思想:基于训练集
D={(x1,y1),(x2,y2),...,(xm,ym)}
D
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
.
.
.
,
(
x
m
,
y
m
)
}
,
yi∈{−1,+1},
y
i
∈
{
−
1
,
+
1
}
,
在样本空间中找到一个划分超平面,将不同的类别样本分开。因此需要找到合适的超平面使得泛化性能最好。
直观上看应该找位于两类训练样本“正中间”的划分超平面,此超平面对训练样本集扰动的容忍性最好,即受影响最小,泛化能力最强。
描述:
wTx+b=0,其中w=(w1;w2;w3...wd)
w
T
x
+
b
=
0
,
其
中
w
=
(
w
1
;
w
2
;
w
3
.
.
.
w
d
)
为法向量,决定超平面方向,b为位移项,决定超平面与原点之间的距离。超平面的划分可被法向量w和位移b决定,样本空间中任意一点x到超平面(w,b)的距离可写为:
最大间隔假设
令
则使上式等号成立的样本点被称为“支持向量”,两个异类支持向量到超平面的距离之和为:
优化目标: 找到参数w和b使得 υ υ 最大,即:
等价于:
这就是支持向量机(SVM)的基本型。
对偶问题
拉格朗日的对偶问题:
2式优化目标可写为:
其中 α=(α1;α2;...;αm). α = ( α 1 ; α 2 ; . . . ; α m ) . 令 L(w,b,α) L ( w , b , α ) 对w和b的偏导为零得到:
将4代入3并考虑5式得到:
解出\alpha后,求出w与b即可得到模型:
KTT条件:
对于任一训练样本,总有 αi=0或yif(xi)=1.若αi=0, α i = 0 或 y i f ( x i ) = 1. 若 α i = 0 , 则该样本不会再7式求和中出现,也就不会对f(x)有任何影响。若 αi>0 α i > 0 ,则必有 yif(xi)=1 y i f ( x i ) = 1 ,所对应的样本点在最大间隔边界上,是一个支持向量.
性质:训练完后,大部分训练样本不需要保留,最终模型仅与支持向量有关
SMO算法:
基本思路:先固定 αi α i 之外的所有参数,然后求 αi α i 上的极值。由于存在约束 ∑mi=1αiyi=0, ∑ i = 1 m α i y i = 0 , 若固定 αi α i 之外的其他变量,则 αi α i 可由其他变量导出。于是,SMO每次选择两个变量 αi和αj, α i 和 α j , 并固定其他参数。这样,在参数初始化后,SMO不断执行如下两个步骤直至收敛:
1.选取一对需要更新的变量 αi和αj α i 和 α j ;
2.固定 αi和αj α i 和 α j 以外的参数,求解式7获得更新后的 αi和αj. α i 和 α j .
启发式:选取的两变量所对应的样本之间间隔最大。这样的两个变量有很大的差别,与对两个相似的变量进行更新对比,对他们进行更新会带给目标函数函数值更大的变化。
此时式7可以重写为:
消去变量 αj α j ,得到一个关于 αi α i 的单变量二次规划问题,约束 αi≥0 α i ≥ 0 .可以计算出更新后的 αi和αj。 α i 和 α j 。
偏移项b的确定:对任意支持向量(x_s,y_s)都有y_sf(x_s)=1,即:
核函数
描述:对于非线性可分情况下,讲样本从原始空间映射到更高维的特征空间,使得样本在该特征空间内可分。(如果原始空间有限维,则存在高危特征空间使得样本可分。)
模型表示:
f(X)=wTϕ(x)+b
f
(
X
)
=
w
T
ϕ
(
x
)
+
b
···········9,
ϕ(x)
ϕ
(
x
)
为x映射后的特征向量;w和b为模型参数。
优化问题: minw,b12||w||2,s.t.yi(wTϕ(xi)+b)≥1,i=1,2,...,m. m i n w , b 1 2 | | w | | 2 , s . t . y i ( w T ϕ ( x i ) + b ) ≥ 1 , i = 1 , 2 , . . . , m .
对偶问题: maxα∑mi=1αi−12∑mi=1∑mj=1αiαjyiyjϕ(xi)Tϕ(xj)s.t.∑mi=1αiyi=0,αi≥0,i=1,2,...,m. m a x α ∑ i = 1 m α i − 1 2 ∑ i = 1 m ∑ j = 1 m α i α j y i y j ϕ ( x i ) T ϕ ( x j ) s . t . ∑ i = 1 m α i y i = 0 , α i ≥ 0 , i = 1 , 2 , . . . , m .
核函数:
κ(xi,xj)=⟨ϕ(xi),ϕ(xj)⟩=ϕ(xi)Tϕ(xj)
κ
(
x
i
,
x
j
)
=
⟨
ϕ
(
x
i
)
,
ϕ
(
x
j
)
⟩
=
ϕ
(
x
i
)
T
ϕ
(
x
j
)
因此:
f(x)=wTϕ(x)+b=∑mi=1αiyiϕ(xi)Tϕ(x)+b=∑mi=1αiyiκ(xi,xj)+b⋅⋅⋅⋅⋅⋅⋅⋅10
f
(
x
)
=
w
T
ϕ
(
x
)
+
b
=
∑
i
=
1
m
α
i
y
i
ϕ
(
x
i
)
T
ϕ
(
x
)
+
b
=
∑
i
=
1
m
α
i
y
i
κ
(
x
i
,
x
j
)
+
b
·
·
·
·
·
·
·
·
10
组合函数:
+若
κ1和κ2
κ
1
和
κ
2
为核函数,则对于任意正数
γ1κ1+γ2κ2
γ
1
κ
1
+
γ
2
κ
2
也是核函数;
+若
κ1和κ2
κ
1
和
κ
2
为核函数,则核函数的直积
κ1⊗κ2(x,z)=κ1(x,z)κ2(x,z)
κ
1
⊗
κ
2
(
x
,
z
)
=
κ
1
(
x
,
z
)
κ
2
(
x
,
z
)
也是核函数;
+若
κ1
κ
1
为核函数,则对于任意函数g(x),
κ(x,z)=g(x)κ1(x,z)g(z)
κ
(
x
,
z
)
=
g
(
x
)
κ
1
(
x
,
z
)
g
(
z
)
也是核函数。
软间隔与正则化
硬间隔:所有样本必须划分正确。
软间隔:允许支持向量机在一些样本上不满足约束:
yi(wTxi+b)≥1
y
i
(
w
T
x
i
+
b
)
≥
1
.
优化目标:
minw,b12||w||2+C∑mi=1l0/1(yi(wTxi+b)−1),⋅⋅⋅⋅⋅⋅10
m
i
n
w
,
b
1
2
|
|
w
|
|
2
+
C
∑
i
=
1
m
l
0
/
1
(
y
i
(
w
T
x
i
+
b
)
−
1
)
,
·
·
·
·
·
·
10
其中
l0/1
l
0
/
1
是“0/1损失函数”f(n) =
替代损失(由于 l0/1 l 0 / 1 函数非凸、非连续、函数性质不好,因此由一些函数替代 l0/1 l 0 / 1 ):
+hinge损失: lhinge(z)=max(0,1−z) l h i n g e ( z ) = m a x ( 0 , 1 − z )
+指数损失(exponential loss): lexp(z)=exp(−z) l e x p ( z ) = e x p ( − z ) ;
+对率损失(logistics loss): llog(z)=log(1+exp(−z)). l l o g ( z ) = l o g ( 1 + e x p ( − z ) ) .
hinge损失:采用hinge损失,则10式变为:
软间隔支持向量机:引入“松弛变量” ξi≥0 ξ i ≥ 0 ,可将上式重写为
拉格朗日函数(软间隔支持向量机条件下):
对偶问题:
KKT条件:
正则问题:
minfΩ(f)+C∑mi=1l(f(xi),yi),
m
i
n
f
Ω
(
f
)
+
C
∑
i
=
1
m
l
(
f
(
x
i
)
,
y
i
)
,
其中
Ω(f)
Ω
(
f
)
称为“结构风险”,正则化项,描述模型的某些性质,
C∑mi=1l(f(xi),yi)
C
∑
i
=
1
m
l
(
f
(
x
i
)
,
y
i
)
为经验风险;用于描述模型与训练数据的契合程度;C正则化常数,用于对二者进行折中,
Lp
L
p
范数为常用正则化项,
L2
L
2
倾向于w的分量取值均衡;
L1和L0
L
1
和
L
0
倾向于w的分量尽量稀疏,非零分量个数尽量少。
支持向量回归
假设:f(x)与y之间的差别绝对值大于
ϵ
ϵ
才计算损失,如下图,训练样本落入此间隔带,则被认为预测正确:
SVR问题:
minw,b12||w||2+C∑mi=1lϵ(f(xi)−yi),⋅⋅⋅⋅⋅⋅⋅⋅15
m
i
n
w
,
b
1
2
|
|
w
|
|
2
+
C
∑
i
=
1
m
l
ϵ
(
f
(
x
i
)
−
y
i
)
,
·
·
·
·
·
·
·
·
15
ϵ
ϵ
-insensitive loss function:
引入松弛变量 ξi和ξ^i ξ i 和 ξ ^ i 则15式变为:
拉格朗日函数:
L(w,b,α,α^,ξ,ξ^,μ,μ^)=12||w||2+C∑mi=1(ξi+ξ^i)−∑mi=1μ^iξ^i−∑mi=1muiξi+∑mi=1αi(f(xi)−yi)−ϵ−ξi)+∑mi=1α^i(yi−f(xi))−ϵ−ξ^i)
L
(
w
,
b
,
α
,
α
^
,
ξ
,
ξ
^
,
μ
,
μ
^
)
=
1
2
|
|
w
|
|
2
+
C
∑
i
=
1
m
(
ξ
i
+
ξ
^
i
)
−
∑
i
=
1
m
μ
^
i
ξ
^
i
−
∑
i
=
1
m
m
u
i
ξ
i
+
∑
i
=
1
m
α
i
(
f
(
x
i
)
−
y
i
)
−
ϵ
−
ξ
i
)
+
∑
i
=
1
m
α
^
i
(
y
i
−
f
(
x
i
)
)
−
ϵ
−
ξ
^
i
)
··18
SVR对偶问题:利用拉格朗日乘子法得到SVR对偶问题:
KTT条件:
求解:SVR解形如: