什么是支持向量机【SVM,详细理论推导】

机器学习笔记

第一章 机器学习简介
第二章 感知机
第三章 支持向量机
第四章 朴素贝叶斯分类器
第五章 Logistic回归
第六章 线性回归和岭回归
第七章 多层感知机与反向传播【Python实例】
第八章 主成分分析【PCA降维】
第九章 隐马尔可夫模型
第十章 奇异值分解
第十一章 熵、交叉熵、KL散度
第十二章 什么是范数【向量范数、矩阵范数】
第十三章 极大似然估计、最大后验估计、贝叶斯估计
第十四章 高斯过程回归模型



同感知机一样,支持向量机(support vector machines, SVM)是一种二分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机;支持向量机还包括核技巧,这使它成为实质上的非线性分类器。学习支持向量机之前,建议先学感知机,感知机是支持向量机的基础。学习支持向量机的求解算法,需要了解一点最优化的知识(拉格朗日乘子法,KKT条件),可以参考我的这篇文章:凸优化的对偶理论【对偶问题、互补松弛条件、KKT条件】.

一、线性可分支持向量机

上一章介绍了感知机,一般来说,对于线性可分的数据,感知机算法求得的分离超平面不是唯一的,而支持向量机就是要找一个最优的超平面。如何选择一个“最优”分离超平面呢?本节首先探讨对线性可分数据应用SVM进行二分类,这样的SVM被称为线性可分支持向量机

(1)支持向量

若超平面 w x + b = 0 wx+b=0 wx+b=0(我们简记为 ( w , b ) (w,b) (w,b))将训练样本正确分类,则对任一 ( x i , y i ) ∈ D (x_i,y_i)\in D (xi,yi)D 来说,都有
y i ( w ⋅ x i + b ) > 0. y_i(w\cdot x_i+b)>0. yi(wxi+b)>0.

我们称 y i ( w ⋅ x i + b ) y_i(w\cdot x_i+b) yi(wxi+b)函数间隔,令 γ ^ = min ⁡ 1 ≤ i ≤ N y i ( w ⋅ x i + b ) \hat{\gamma}=\min\limits_{1\leq i\leq N}y_i(w\cdot x_i+b) γ^=1iNminyi(wxi+b),则

y i ( w ⋅ x i + b ) ≥ γ ^ > 0. y_i(w\cdot x_i+b)\geq\hat{\gamma}>0. yi(wxi+b)γ^>0.

注意到,对任给的 k ≠ 0 k\neq0 k=0来说, ( w , b ) (w,b) (w,b) ( k w , k b ) (kw,kb) (kw,kb)是同一超平面,因此可选择合适的 ( w , b ) (w,b) (w,b)(上式同除 γ ^ \hat{\gamma} γ^即可)使得对任一 ( x i , y i ) ∈ D (x_i,y_i)\in D (xi,yi)D来说,都有

y i ( w ⋅ x i + b ) ≥ 1. y_i(w\cdot x_i+b)\geq1. yi(wxi+b)1.
特别地,对满足

y i ( w ⋅ x i + b ) = 1 y_i(w\cdot x_i+b)=1 yi(wxi+b)=1

的样本点,我们称之为支持向量,满足如下性质:

  • y i = + 1 y_i=+1 yi=+1, 则 x i x_i xi落在超平面 H 1 : w ⋅ x + b = 1 H_1{:}w\cdot x+b=1 H1:wx+b=1上;
  • y i = − 1 y_i=-1 yi=1,则 x i x_i xi落在超平面 H 2 H_{2} H2: w ⋅ x + b = − 1 w\cdot x+b=-1 wx+b=1上.

在这里插入图片描述

超平面 H 1 H_{1} H1 H 2 H_{2} H2均与分离超平面 H H H平行,且等距离分处 H H H 的两侧。位于 H 1 H_1 H1 H 2 H_2 H2上的点,是距离分离超平面 ( w , b ) (w,b) (w,b)最近的样本点,它们到 ( w , b ) (w,b) (w,b)的几何距离是 1 ∥ w ∥ \frac1{\|w\|} w1(平行平面的距离公式)。我们把 H 1 H_{1} H1 H 2 H_{2} H2之间的距离 2 ∥ w ∥ \frac2{\|w\|} w2称为几何间隔

  • 注意本文的 ∥ ⋅ ∥ \|\cdot\| 都表示 l 2 l_2 l2范数;
  • 样本点到分离超平面的距离刻画了对该样本点分类预测的确信程度;
  • 样本点到分离超平面的最短距离 1 ∥ w ∥ \frac1{\|w\|} w1刻画了对训练样本点分类预测的最小确信度;
  • 最大化对训练样本点分类预测的最小确信度就是最大化间隔

(2)硬间隔最大化

支持向量机求的最优分离超平面,不仅要分类正确,而且要使得间隔最大化,这里称之为硬间隔最大化,即
max ⁡ w , b 1 ∥ w ∥ , s . t . y i ( w ⋅ x i + b ) ≥ 1 , i = 1 , 2 , ⋯   , N . \begin{aligned} &\operatorname*{max}_{w,b}\quad\frac1{\|w\|},\\ & s.t.\quad y_i(w\cdot x_i+b)\geq1,\quad i=1,2,\cdots,N. \end{aligned} w,bmaxw1,s.t.yi(wxi+b)1,i=1,2,,N.
最大化 1 ∥ w ∥ \frac1{\|w\|} w1和最小化 1 2 ∥ w ∥ 2 \frac12\parallel w\parallel^2 21w2是等价的(这两个问题的对偶问题形式一样),因此上式可以重写成如下的凸二次规划问题:
min ⁡ w , b 1 2 ∥ w ∥ 2 , s . t . y i ( w ⋅ x i + b ) ≥ 1 , i = 1 , 2 , ⋯   , N . ( 1 ) \begin{aligned} &\operatorname*{min}_{w,b}\quad \frac{1}{2}\|w\|^2,\\ & s.t.\quad y_i(w\cdot x_i+b)\geq1,\quad i=1,2,\cdots,N. \end{aligned} \qquad (1) w,bmin21w2,s.t.yi(wxi+b)1,i=1,2,,N.(1)
D D D是线性可分的,则上述凸二次规划问题的解存在且唯一。二次规划问题有很多算法可以求解,也有很多求解器能直接解决二次规划问题,如Mosek、Gurobi等。但是一般我们不直接求解原问题,而是求解其对偶问题,原因有几点:

  1. 对偶问题更简单,更容易求解,效率更高;
  2. 对偶问题将原始问题中的不等式约束转为了对偶问题中的等式约束;
  3. 对偶问题方便核函数的引入,进而可以推广到非线性分类问题。

下面推导原始问题的对偶问题。

(3)支持向量机的对偶问题

引入拉格朗日乘子,写出原问题(1)的拉格朗日函数:
L ( w , b , α ) = 1 2 ∥ w ∥ 2 − ∑ i = 1 N α i y i ( w ∙ x i + b ) + ∑ i = 1 N α i ( 2 ) L(w,b,\alpha)=\frac{1}{2}\|w\|^{2}-\sum_{i=1}^{N}\alpha_{i}y_{i}(w\bullet x_{i}+b)+\sum_{i=1}^{N}\alpha_{i} \qquad (2) L(w,b,α)=21w2i=1Nαiyi(wxi+b)+i=1Nαi(2)
其中, α = ( α 1 , α 2 , ⋯   , α N ) T \alpha=(\alpha_1,\alpha_2,\cdots,\alpha_N)^{\mathrm{T}} α=(α1,α2,,αN)T为拉格朗日乘子向量, α i ≥ 0 , i = 1 , 2 , ⋯   , N . \alpha_i\geq 0,i=1,2,\cdots,N. αi0,i=1,2,,N.根据拉格朗日对偶性,原始问题的对偶问题是极大极小问题:
max ⁡ α min ⁡ w , b L ( w , b , α ) \max_{\alpha}\min_{w,b}L(w,b,\alpha) αmaxw,bminL(w,b,α)

所以,为了得到对偶问题的解,需要先求 L ( w , b , α ) L(w,b,\alpha) L(w,b,α) w , b w,b w,b 的极小,再求对 α 的极大。将拉格朗日函数 L ( w , b , α ) L(w,b,\alpha) L(w,b,α) 分别对 w , b w,b w,b 求偏导数并令其等于 0:
∇ w L ( w , b , α ) = w − ∑ i = 1 N α i y i x i = 0 ∇ b L ( w , b , α ) = − ∑ i = 1 N α i y i = 0 \begin{aligned}\nabla_wL(w,b,\alpha)&=w-\sum_{i=1}^N\alpha_iy_ix_i=0\\\nabla_bL(w,b,\alpha)&=-\sum_{i=1}^N\alpha_iy_i=0\end{aligned} wL(w,b,α)bL(w,b,α)=wi=1Nαiyixi=0=i=1Nαiyi=0

得:

w = ∑ i = 1 N α i y i x i ( 3 ) \begin{aligned}w=\sum_{i=1}^N\alpha_iy_ix_i\end{aligned} \qquad (3) w=i=1Nαiyixi(3)

∑ i = 1 N α i y i = 0 ( 4 ) \sum_{i=1}^N\alpha_iy_i=0 \qquad(4) i=1Nαiyi=0(4)

将式 (3) 代入拉格朗日函数 (式 (2)), 并利用式 (4), 注意 ∥ w ∥ 2 = w T ⋅ w \|w\|^2=w^T\cdot w w2=wTw,即得:
L ( w , b , α ) = 1 2 ∑ i = 1 N ∑ j = 1 N α i α j y i y j ( x i ⋅ x j ) − ∑ i = 1 N α i y i [ ( ∑ j = 1 N α j y j x j ) ⋅ x i + b ] + ∑ i = 1 N α i = − 1 2 ∑ i = 1 N ∑ j = 1 N α i α j y i y j ( x i ⋅ x j ) + ∑ i = 1 N α i . \begin{aligned} L(w,b,\alpha)& =\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_{i}\alpha_{j}y_{i}y_{j}(x_{i}\cdot x_{j})-\sum_{i=1}^{N}\alpha_{i}y_{i}\left[\left(\sum_{j=1}^{N}\alpha_{j}y_{j}x_{j}\right)\cdot x_{i}+b\right]+\sum_{i=1}^{N}\alpha_{i} \\ &=-\frac12\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)+\sum_{i=1}^N\alpha_i. \end{aligned} L(w,b,α)=21i=1Nj=1Nαiαjyiyj(xixj)i=1Nαiyi[(j=1Nαjyjxj)xi+b]+i=1Nαi=21i=1Nj=1Nαiαjyiyj(xixj)+i=1Nαi.
也就是:

min ⁡ w , b L ( w , b , α ) = − 1 2 ∑ i = 1 N ∑ j = 1 N α i α j y i y j ( x i ⋅ x j ) + ∑ i = 1 N α i . \min_{w,b}L(w,b,\alpha)=-\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_{i}\alpha_{j}y_{i}y_{j}(x_{i}\cdot x_{j})+\sum_{i=1}^{N}\alpha_{i}. w,bminL(w,b,α)=21i=1Nj=1Nαiαjyiyj(xixj)+i=1Nαi.

所以,我们得到对偶问题

max ⁡ α − 1 2 ∑ i = 1 N ∑ j = 1 N α i α j y i y j ( x i ⋅ x j ) + ∑ i = 1 N α i , s.t. ∑ i = 1 N α i y i = 0 , α i ⩾ 0 , i = 1 , 2 , ⋯   , N . \begin{aligned} &\max_\alpha \quad -\frac12\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)+\sum_{i=1}^N\alpha_i,\\ &\text{s.t.}\qquad\sum_{i=1}^N\alpha_iy_i=0,\\ &\qquad\quad\alpha_i\geqslant0,\quad i=1,2,\cdots,N. \end{aligned} αmax21i=1Nj=1Nαiαjyiyj(xixj)+i=1Nαi,s.t.i=1Nαiyi=0,αi0,i=1,2,,N.

将上式的目标函数由求极大转换成求极小,就得到下面与之等价的对偶最优化问题:

min ⁡ α 1 2 ∑ i = 1 N ∑ j = 1 N α i α j y i y j ( x i ⋅ x j ) − ∑ i = 1 N α i s.t. ∑ i = 1 N α i y i = 0 α i ⩾ 0 , i = 1 , 2 , ⋯   , N ( 5 ) \begin{aligned} &\min_{\alpha} \quad\frac12\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)-\sum_{i=1}^N\alpha_i \\ &\text{s.t.}\qquad \begin{aligned}\sum_{i=1}^N\alpha_iy_i=0\end{aligned} \\ &\begin{aligned}\qquad\quad\alpha_i\geqslant0,\quad i=1,2,\cdots,N\end{aligned} \end{aligned} \qquad(5) αmin21i=1Nj=1Nαiαjyiyj(xixj)i=1Nαis.t.i=1Nαiyi=0αi0,i=1,2,,N(5)
如何求解对偶问题,不是本文讨论的重点,见参考资料《机器学习方法》第7章的SMO算法,这是一个效率比较高的求解这个对偶问题的算法。

(4)原问题解与对偶解的关系

α = ( α 1 , α 2 , ⋯   , α 1 ) T \alpha=(\alpha_1,\alpha_2,\cdots,\alpha_1)^T α=(α1,α2,,α1)T为式(5)对偶问题的解, ( w , b ) (w,b) (w,b)为原问题的解,则由KKT最优性条件知最优解一定满足如下条件:
y i ( w ⋅ x i + b ) − 1 ≥ 0 , i = 1 , 2 , ⋯   , N . (原问题可行性) α i ≥ 0 , i = 1 , 2 , ⋯   , N . (对偶问题可行性) α i ( y i ( w ⋅ x i + b ) − 1 ) = 0 , i = 1 , 2 , ⋯   , N (互补松弛条件) \begin{aligned} y_i(w\cdot x_i+b)-1\geq0,i=1,2,\cdots,N. \qquad &\text{(原问题可行性)}\\ \alpha_i\geq0,i=1,2,\cdots,N.\qquad &\text{(对偶问题可行性)}\\ \alpha_i(y_i(w\cdot x_i+b)-1)=0,i=1,2,\cdots,N \qquad& \textbf{(互补松弛条件)} \end{aligned} yi(wxi+b)10,i=1,2,,N.αi0,i=1,2,,N.αi(yi(wxi+b)1)=0,i=1,2,,N(原问题可行性)(对偶问题可行性)(互补松弛条件)

由式(3)可知 α i \alpha_i αi不能全为0(否则 w = 0 w=0 w=0),不妨设 α j > 0 \alpha_j>0 αj>0, 则由互补松弛条件可得
y j ( w ⋅ x j + b ) = 1. ( 6 ) y_j(w\cdot x_j+b)=1.\qquad (6) yj(wxj+b)=1.(6)

将式(6)两边乘以 y j y_j yj, 可得到

b = y j − w ⋅ x j = y j − ∑ i = 1 N α i y i x i ⋅ x j . ( 7 ) b=y_j-w\cdot x_j=y_j-\sum_{i=1}^N\alpha_iy_ix_i\cdot x_j. (7) b=yjwxj=yji=1Nαiyixixj.(7)
在得到对偶问题的解之后,我们可以由( 3)和( 7)得到原问题的解:
w = ∑ i = 1 N α i y i x i b = y j − ∑ i = 1 N α i y i x i ⋅ x j . \begin{aligned} w= &\sum_{i=1}^N\alpha_iy_ix_i \\ b=&y_j-\sum_{i=1}^N\alpha_iy_ix_i\cdot x_j. \end{aligned} w=b=i=1Nαiyixiyji=1Nαiyixixj.
由上式可知,只有 a i > 0 a_i>0 ai>0的样例 ( x i , y i ) (x_i,y_i) (xi,yi) 才对模型的构建起作用。由互补松弛条件可知, a i > 0 a_i>0 ai>0的的正例点和负例点正好分别落在间隔边界 H 1 : w ⋅ x + b = 1 H_1:w\cdot x+b=1 H1:wx+b=1 H 2 : w ⋅ x + b = − 1 H_2:w\cdot x+b=-1 H2:wx+b=1 上,所以我们称这样的实例点 x i x_i xi支持向量。

二、线性支持向量机

(1)软间隔最大化

线性可分问题的支持向量机学习方法对线性不可分训练数据是不适用的,因为这时上述方法中的不等式约束并不能都成立。本节将支持向量机推广到线性不可分数据集上。

假设给定一个特征空间上的训练数据集
D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯   , ( x N , y N ) } D=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\} D={(x1,y1),(x2,y2),,(xN,yN)}

其中, x i ∈ X = R n , y i ∈ Y = { + 1 , − 1 } , i = 1 , 2 , ⋯   , N , x i x_i\in\mathcal{X}=\boldsymbol{R}^n,y_i\in\mathcal{Y}=\{+1,-1\},i=1,2,\cdots,N,x_i xiX=Rn,yiY={+1,1},i=1,2,,N,xi 为第 i i i 个特征向量, y i y_i yi x i x_i xi 的类标记。再假设训练数据集不是线性可分的。通常情况是,训练数据中有一些特异点(outlier), 将这些特异点除去后,剩下大部分的样本点组成的集合是线性可分的。

线性不可分意味着某些样本点 ( x i , y i ) (x_i,y_i) (xi,yi) 不能满足函数间隔大于等于 1 的约束条件,为了解决这个问题,可以对每个样本点 ( x i , y i ) (x_i,y_i) (xi,yi) 引进一个松弛变量 ξ i ⩾ 0 \xi_i\geqslant0 ξi0, 使函数间隔加上松弛变量大于等于 1。这样,约束条件变为

y i ( w ∙ x i + b ) ⩾ 1 − ξ i y_i(w\bullet x_i+b)\geqslant1-\xi_i yi(wxi+b)1ξi

同时,对每个松弛变量 ξ i \xi_i ξi,目标函数需要引入一个代价 ξ i \xi_{i} ξi。目标函数由原来的 1 2 ∥ w ∥ 2 \frac12\|w\|^2 21w2 变成

1 2 ∥ w ∥ 2 + C ∑ i = 1 N ξ i ( 8 ) \frac12\|w\|^2+C\sum_{i=1}^N\xi_i \qquad (8) 21w2+Ci=1Nξi(8)

这里, C > 0 C>0 C>0 称为惩罚参数,一般由应用问题决定, C C C 值大时对误分类的惩罚增大, C C C 值小时对误分类的惩罚减小。最小化目标函数 (8) 包含两层含义:使 1 2 ∥ w ∥ 2 \frac12\|w\|^2 21w2 尽量小即间隔尽量大,同时使误分类点的个数尽量少, C C C 是调和二者的系数。

有了上面的思路,可以和训练数据集线性可分时一样来考虑训练数据集线性不可分时的线性支持向量机学习问题。相应于硬间隔最大化,它称为软间隔最大化。线性不可分的线性支持向量机的学习问题变成如下凸二次规划(convex quadratic programming) 问题(原始问题):

min ⁡ w , b , ξ 1 2 ∥ w ∥ 2 + C ∑ i = 1 N ξ i s.t. y i ( w ⋅ x i + b ) ⩾ 1 − ξ i , i = 1 , 2 , ⋯   , N ξ i ⩾ 0 , i = 1 , 2 , ⋯   , N \begin{aligned}\min_{w,b,\xi}&\quad\frac{1}{2}\|w\|^2+C\sum_{i=1}^{N}\xi_i\\\text{s.t.}&\quad y_i(w\cdot x_i+b)\geqslant1-\xi_i,\quad i=1,2,\cdots,N\\&\quad\xi_i\geqslant0,\quad i=1,2,\cdots,N\end{aligned} w,b,ξmins.t.21w2+Ci=1Nξiyi(wxi+b)1ξi,i=1,2,,Nξi0,i=1,2,,N

(2)对偶问题

引入拉格朗日乘子 α , β \alpha,\beta α,β,同理可以得到原问题的对偶问题:
max ⁡ α , β − 1 2 ∑ i = 1 N ∑ j = 1 N α i α j y i y j ( x i ⋅ x j ) + ∑ i = 1 N α i s.t. ∑ i = 1 N α i y i = 0 C − α i − β i = 0 α i ⩾ 0 β i ⩾ 0 , i = 1 , 2 , ⋯   , N \begin{aligned} &\operatorname*{max}_{\alpha,\beta}\quad \begin{aligned}-\frac12\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)+\sum_{i=1}^N\alpha_i\end{aligned} \\ &\text{s.t.}\quad \begin{aligned}\sum_{i=1}^N\alpha_iy_i=0\end{aligned} \\ &\qquad C-\alpha_{i}-\beta_{i}=0 \\ & \qquad \alpha_{i}\geqslant0 \\ &\qquad \beta_{i}\geqslant0,\quad i=1,2,\cdots,N \end{aligned} α,βmax21i=1Nj=1Nαiαjyiyj(xixj)+i=1Nαis.t.i=1Nαiyi=0Cαiβi=0αi0βi0,i=1,2,,N

进一步利用约束 α i + β i = C \alpha_i+\beta_i=\mathcal{C} αi+βi=C消去 β i \beta_i βi, 得到如下对偶问题:
max ⁡ α , μ ∑ i = 1 N α i − 1 2 ∑ i = 1 N ∑ j = 1 N α i α j y i y j ( x i ⋅ x j ) s . t . ∑ i = 1 N α i y i = 0 0 ≤ α i ≤ C , i = 1 , 2 , ⋯   , N . \begin{aligned} &\max_{\alpha,\mu} \quad\sum_{i=1}^{N}\alpha_i-\frac12\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_jy_iy_j(x_i\cdot x_j) \\ &s.t. \quad \sum_{i=1}^N\alpha_iy_i=0\\ &\qquad\quad0\leq\alpha_i\leq C,\quad i=1,2,\cdots,N. \end{aligned} α,μmaxi=1Nαi21i=1Nj=1Nαiαjyiyj(xixj)s.t.i=1Nαiyi=00αiC,i=1,2,,N.

D D D线性可分的情形相比:

  • 对偶问题的目标函数完全一样;
  • 约束部分只是增加了约束 α i ≤ C . \alpha_i\leq C. αiC.

(3)最优性条件

由KKT最优性条件,对 ∀ i = 1 , 2 , ⋯   , N \forall i=1,2,\cdots,N i=1,2,,N可得:

y i ( w ⋅ x i + b ) − 1 + ξ i ≥ 0 (原始问题可行性) α i ≥ 0 (对偶问题可行性) β i ≥ 0 (对偶问题可行性) α i ( y i ( w ⋅ x i + b ) − 1 + ξ i ) = 0 (互补松弛条件) β i ξ i = 0 (互补松弛条件) \begin{aligned} y_i(w\cdot x_i+b)-1+\xi_i &\geq0 \quad \text{(原始问题可行性)} \\ \alpha_i &\geq0 \quad\text{(对偶问题可行性)}\\ \beta_i &\geq0 \quad\text{(对偶问题可行性)}\\ \alpha_i(y_i(w\cdot x_i+b)-1+\xi_i) &=0 \quad \text{(互补松弛条件)} \\ \beta_i\xi_i &=0 \quad \text{(互补松弛条件)} \end{aligned} yi(wxi+b)1+ξiαiβiαi(yi(wxi+b)1+ξi)βiξi0(原始问题可行性)0(对偶问题可行性)0(对偶问题可行性)=0(互补松弛条件)=0(互补松弛条件)

α i > 0 \alpha_i>0 αi>0的样本点 x i x_i xi来说,
y i ( w ⋅ x i + b ) = 1 − ξ i . y_i(w\cdot x_i+b)=1-\xi_i. yi(wxi+b)=1ξi.
如果 0 < α i < C 0<\alpha_i<C 0<αi<C, 则 C − α i = β i > 0 C-\alpha_i=\beta_i>0 Cαi=βi>0, 由KKT条件可知 ξ i = 0 \xi_i=0 ξi=0。因此, y i ( w ⋅ x i + b ) = 1 y_i(w\cdot x_i+b)=1 yi(wxi+b)=1.这意味着对于 0 < α i < C 0<\alpha_i<C 0<αi<C的样本点 x i x_i xi仍然落在间隔边界 H 1 H_1 H1 H 2 H_2 H2上。

进一步,将式 y i ( w ⋅ x i + b ) = 1 y_i(w\cdot x_i+b)=1 yi(wxi+b)=1.两边乘以 y i y_i yi, 可得到

b = y i − w ⋅ x i = y i − ∑ j = 1 N α j y j x j ⋅ x i . b=y_i-w\cdot x_i=y_i-\sum_{j=1}^N\alpha_jy_jx_j\cdot x_i. b=yiwxi=yij=1Nαjyjxjxi.

因此,在得到对偶问题的解之后,我们可以得到最优分离超平面
∑ i = 1 N α i y i x i ⋅ x + b = 0. \sum_{i=1}^N\alpha_iy_ix_i\cdot x+b=0. i=1Nαiyixix+b=0.

  • 最优分离超平面的法向量 w w w惟一,但偏置不一定惟一
  • 通常在具体求解算法中用若干个如上求得的偏置的均值作为最优超平面的偏置的估计值.

截屏2023-12-21 16.51.48

α i = C \alpha_i=C αi=C来说,满足 ξ i > 0 \xi_i>0 ξi>0的支持向量都是特异点,每类点如上图所示,有如下特点:

  • x i x_i xi到所属类别的边界超平面的距离为 ξ i ∥ w ∥ \frac{\xi_i}{\|w\|} wξi
  • 如果 0 < ξ i < 1 0<\xi_i<1 0<ξi<1, 则 x i x_i xi落在边界和分离超平面之间 ,仍然被正确分类.
  • 如果 ξ i = 1 \xi_i=1 ξi=1, 则 x i x_i xi正好落在分离超平面上.
  • 如果 ξ i > 1 \xi_i>1 ξi>1, 则 x i x_i xi被分离超平面错误分类.

(4)线性支持向量机的另一种解释

回顾引进松弛变量的初衷:

  • ξ i = 0 \xi_i=0 ξi=0 对应的样本点 x i x_i xi都满足约束 y i ( w ⋅ x i + b ) ≥ 1. y_i(w\cdot x_i+b)\geq1. yi(wxi+b)1.
  • 而对特异点 x i x_i xi 来说, ξ i ≥ 1 − y i ( w ⋅ x i + b ) . \xi_i\geq1-y_i(w\cdot x_i+b). ξi1yi(wxi+b).

考虑到目标函数里面松弛的总幅度要尽可能小,对特异点 x i x_i xi 我们这里不妨取

ξ i = 1 − y i ( w ⋅ x i + b ) . \xi_i=1-y_i(w\cdot x_i+b). ξi=1yi(wxi+b).
我们引进合页损失函数
h ( z ) = max ⁡ ( 0 , 1 − z ) , h(z)=\max(0,1-z), h(z)=max(0,1z),
ξ i \xi_i ξi可以用合页损失函数表示为:
ξ i = h ( y i ( w ⋅ x i + b ) ) . \xi_i=h\left(y_i(w\cdot x_i+b)\right). ξi=h(yi(wxi+b)).
显然,这样的 ξ i \xi_i ξi都满足放宽的约束.

min ⁡ w , b , ξ 1 2 ∥ w ∥ 2 + C ∑ i = 1 N ξ i , s.t. y i ( w ⋅ x i + b ) ⩾ 1 − ξ i , i = 1 , 2 , ⋯   , N , ξ i ⩾ 0 , i = 1 , 2 , ⋯   , N . \begin{aligned}\min_{w,b,\xi}&\quad\frac{1}{2}\|w\|^2+C\sum_{i=1}^{N}\xi_i, \\ \text{s.t.}&\quad y_i(w\cdot x_i+b)\geqslant1-\xi_i,\quad i=1,2,\cdots,N,\\ &\quad\xi_i\geqslant0,\quad i=1,2,\cdots,N. \end{aligned} w,b,ξmins.t.21w2+Ci=1Nξi,yi(wxi+b)1ξi,i=1,2,,N,ξi0,i=1,2,,N.

我们得到与上式等价的最优化问题:
min ⁡ w , b 1 2 ∥ w ∥ 2 + C ∑ i = 1 N h ( y i ( w ⋅ x i + b ) ) . \min_{w,b}\frac12\parallel w\parallel^2+C\sum_{i=1}^Nh\left(y_i(w\cdot x_i+b)\right). w,bmin21w2+Ci=1Nh(yi(wxi+b)).
这其实对应于损失函数为合页损失函数的结构风险最小化策略(见机器学习简介中的介绍)。与
min ⁡ w , b 1 2 ∥ w ∥ 2 + C ∑ i = 1 N I ( ξ i ≠ 0 ) \min_{w,b}\frac12\parallel w\parallel^2+C\sum_{i=1}^NI(\xi_i\neq0) w,bmin21w2+Ci=1NI(ξi=0)
与上式相比,
min ⁡ w , b ∑ i = 1 N h ( y i ( w ⋅ x i + b ) ) + 1 2 C ∥ w ∥ 2 . \min_{w,b}\sum_{i=1}^Nh\left(y_i(w\cdot x_i+b)\right)+\frac1{2C}\parallel w\parallel^2. w,bmini=1Nh(yi(wxi+b))+2C1w2.
相当于我们合页损失函数来替代0-1损失函数。

截屏2023-12-21 17.53.55

三、参考资料

  1. 李航. 机器学习方法. 清华大学出版社, 2022.
  • 39
    点赞
  • 79
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值