-
通过最大间隔原则导出SVM基本型:
min w , b 1 2 ∣ ∣ w ∣ ∣ 2 \min\limits_{w,b}\frac{1}{2}||w||^2 w,bmin21∣∣w∣∣2
s . t . y i ( w T x i + b ) ≥ 1 , i = 1 , . . . , m s.t. ~~y_i(w^Tx_i+b)\geq1,i=1,...,m s.t. yi(wTxi+b)≥1,i=1,...,m
此问题为凸二次规划问题,可以利用常规优化包计算。
但是基于两个原因,一般利用其对偶问题求解。第一,对偶问题更容易求解,第二,方便利用核函数扩展到非线性划分。 -
通过拉格朗日乘子法合并约束条件:
拉格朗日函数:
L ( w , b , α ) = 1 2 ∣ ∣ w ∣ ∣ 2 + ∑ i = 1 m α i ( 1 − y i ( w T x i + b ) ) L(w,b,\alpha)=\frac{1}{2}||w||^2+\sum\limits_{i=1}^m\alpha_i(1-y_i(w^Tx_i+b)) L(w,b,α)=21∣∣w∣∣2+i=1∑mαi(1−yi(wTxi+b)) -
构造拉格朗日函数下界(最优值下界),对偶函数:
Γ ( α i ) = min w , b L ( w , b , α ) \Gamma(\alpha_i)=\min\limits_{w,b}L(w,b,\alpha) Γ(αi)=w,bminL(w,b,α)
对 w , b w,b w,b求导可得:
Γ ( α i ) = ∑ i = 1 m α i − 1 2 ∑ i = 1 m ∑ j = 1 m α i α j y i y j x i T x j \Gamma(\alpha_i)=\sum\limits_{i=1}^m\alpha_i -\frac{1}{2}\sum\limits_{i=1}^m\sum\limits_{j=1}^m\alpha_i\alpha_jy_iy_jx_i^Tx_j Γ(αi)=i=1∑mαi−21i=1∑mj=1∑mαiαjyiyjxiTxj
此时考虑最大上界 max α i Γ ( α i ) \max\limits_{\alpha_i}\Gamma(\alpha_i) αimaxΓ(αi),即拉格朗日函数的极大极小问题:
max α i min w , b L ( w , b , α ) = max α i Γ ( α i ) \max\limits_{\alpha_i}\min\limits_{w,b}L(w,b,\alpha)=\max\limits_{\alpha_i}\Gamma(\alpha_i) αimaxw,bminL(w,b,α)=αimaxΓ(αi)
可得对偶最优化问题:
min α i Γ ( α i ) = min α i 1 2 ∑ i = 1 m ∑ j = 1 m α i α j y i y j x i T x j − ∑ i = 1 m α i \min\limits_{\alpha_i}\Gamma(\alpha_i)=\min\limits_{\alpha_i} \frac{1}{2}\sum\limits_{i=1}^m\sum\limits_{j=1}^m\alpha_i\alpha_jy_iy_jx_i^Tx_j -\sum\limits_{i=1}^m\alpha_i αiminΓ(αi)=αimin21i=1∑mj=1∑mαiαjyiyjxiTxj−i=1∑mαi
s . t . ∑ i = 1 m α i y i = 0 s.t.~~\sum\limits_{i=1}^m\alpha_iy_i=0 s.t. i=1∑mαiyi=0
α i ≥ 0 ~~~~~~~~\alpha_i\geq0 αi≥0
i = 1 , . . . , m ~~~~~~~~i=1,...,m i=1,...,m
求得最优解 α ∗ \alpha^* α∗后:
f ( x ) = w T x + b f(x)=w^Tx+b f(x)=wTx+b
w = ∑ i = 1 m α i ∗ y i x i w=\sum\limits_{i=1}^m\alpha_i^*y_ix_i w=i=1∑mαi∗yixi
b = 1 y s − ∑ i = 1 m α i ∗ y i x i T x s b=\frac{1}{y_s}-\sum\limits_{i=1}^m\alpha_i^*y_ix_i^Tx_s b=ys1−i=1∑mαi∗yixiTxs
s s s为任意支持向量。 -
对偶问题与原问题的等价条件:
当原问题为凸优化问题,即 f ( x ) , g ( x ) f(x),g(x) f(x),g(x)为凸函数, h ( x ) h(x) h(x)为仿射函数,且可行域中至少有一点使不等式严格成立,则满足等价条件。 -
w ∗ , b ∗ , α ∗ w^*,b^*, \alpha^* w∗,b∗,α∗ 分别为原始问题和对偶问题的解的充分必要条件是满足KKT条件(求解过程):
∇ w L ( w ∗ , b ∗ , α ∗ ) = 0 \nabla_wL(w^*,b^*, \alpha^*)=0 ∇wL(w∗,b∗,α∗)=0
∇ b L ( w ∗ , b ∗ , α ∗ ) = 0 \nabla_bL(w^*,b^*, \alpha^*)=0 ∇bL(w∗,b∗,α∗)=0
∇ α L ( w ∗ , b ∗ , α ∗ ) = 0 \nabla_\alpha L(w^*,b^*, \alpha^*)=0 ∇αL(w∗,b∗,α∗)=0
α i ∗ ≥ 0 \alpha_i^*\geq0 αi∗≥0
y i ( w ∗ T x i + b ∗ ) − 1 ≥ 0 y_i(w^*{^T}x_i+b^*)-1\geq0 yi(w∗Txi+b∗)−1≥0
α i ( y i ( w ∗ T x i + b ∗ ) − 1 ) = 0 \alpha_i(y_i(w^*{^T}x_i+b^*)-1)=0 αi(yi(w∗Txi+b∗)−1)=0
i = 1 , . . . , m i=1,...,m i=1,...,m
注意不同教材对KKT条件定义不同,见李航《统计学习方法》,周志华《机器学习》。 -
注意,原始问题的等价拉格朗日函数极小极大问题为
min w , b max α i L ( w , b , α ) \min\limits_{w,b}\max\limits_{\alpha_i}L(w,b,\alpha) w,bminαimaxL(w,b,α)
所以有对偶一说。
支持向量机思路
最新推荐文章于 2023-02-07 10:16:43 发布