什么是支持向量机【SVM，详细理论推导】

格兰芬多_未名

已于 2024-08-20 16:46:55 修改

阅读量1.5w

点赞数 49

分类专栏：机器学习文章标签：支持向量机算法机器学习

于 2023-12-21 18:11:30 首次发布

本文链接：https://blog.csdn.net/v20000727/article/details/135137095

版权

机器学习专栏收录该内容

21 篇文章

订阅专栏

机器学习笔记

第一章机器学习简介
 第二章感知机
 第三章支持向量机
 第四章朴素贝叶斯分类器
 第五章 Logistic回归
 第六章线性回归和岭回归
 第七章多层感知机与反向传播【Python实例】
第八章主成分分析【PCA降维】
第九章隐马尔可夫模型
 第十章奇异值分解
 第十一章熵、交叉熵、KL散度
 第十二章什么是范数【向量范数、矩阵范数】
第十三章极大似然估计、最大后验估计、贝叶斯估计
 第十四章高斯过程回归模型

同感知机一样，支持向量机(support vector machines, SVM)是一种二分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器，间隔最大使它有别于感知机；支持向量机还包括核技巧，这使它成为实质上的非线性分类器。学习支持向量机之前，建议先学感知机，感知机是支持向量机的基础。学习支持向量机的求解算法，需要了解一点最优化的知识（拉格朗日乘子法，KKT条件），可以参考我的这篇文章：凸优化的对偶理论【对偶问题、互补松弛条件、KKT条件】.

一、线性可分支持向量机

上一章介绍了感知机，一般来说，对于线性可分的数据，感知机算法求得的分离超平面不是唯一的，而支持向量机就是要找一个最优的超平面。如何选择一个“最优”分离超平面呢？本节首先探讨对线性可分数据应用SVM进行二分类，这样的SVM被称为线性可分支持向量机。

（1）支持向量

若超平面 $w x + b = 0$ (我们简记为 $(w, b)$ )将训练样本正确分类，则对任一 $(x_i,y_i)\in D$ 来说，都有
$y_i(w\cdot x_i+b)>0.$

我们称 $y_i(w\cdot x_i+b)$ 为函数间隔，令 $\hat{\gamma}=\min\limits_{1\leq i\leq N}y_i(w\cdot x_i+b)$ ，则

$y_i(w\cdot x_i+b)\geq\hat{\gamma}>0.$

注意到，对任给的 $k\neq0$ 来说， $(w, b)$ 和 $(k w, kb)$ 是同一超平面，因此可选择合适的 $(w, b)$ （上式同除 $\hat{\gamma}$ 即可）使得对任一 $(x_i,y_i)\in D$ 来说，都有

$y_i(w\cdot x_i+b)\geq1.$
特别地，对满足

$y_i(w\cdot x_i+b)=1$

的样本点，我们称之为支持向量，满足如下性质：

若 $y_i=+1$ , 则 $x_i$ 落在超平面 $H_1{:}w\cdot x+b=1$ 上；
若 $y_i=-1$ ,则 $x_i$ 落在超平面 $H_{2}$ : $w\cdot x+b=-1$ 上.

在这里插入图片描述

超平面 $H_{1}$ 和 $H_{2}$ 均与分离超平面 $H$ 平行，且等距离分处 $H$ 的两侧。位于 $H_1$ 和 $H_2$ 上的点，是距离分离超平面 $(w, b)$ 最近的样本点，它们到 $(w, b)$ 的几何距离是 $\frac1{\|w\|}$ （平行平面的距离公式）。我们把 $H_{1}$ 和 $H_{2}$ 之间的距离 $\frac2{\|w\|}$ 称为几何间隔。

注意本文的 $\|\cdot\|$ 都表示 $l_2$ 范数;
样本点到分离超平面的距离刻画了对该样本点分类预测的确信程度；
样本点到分离超平面的最短距离 $\frac1{\|w\|}$ 刻画了对训练样本点分类预测的最小确信度；
最大化对训练样本点分类预测的最小确信度就是最大化间隔。

（2）硬间隔最大化

支持向量机求的最优分离超平面，不仅要分类正确，而且要使得间隔最大化，这里称之为硬间隔最大化，即
$\begin{aligned} &\operatorname*{max}_{w,b}\quad\frac1{\|w\|},\\ & s.t.\quad y_i(w\cdot x_i+b)\geq1,\quad i=1,2,\cdots,N. \end{aligned}$
最大化 $\frac1{\|w\|}$ 和最小化 $\frac12\parallel w\parallel^2$ 是等价的（这两个问题的对偶问题形式一样），因此上式可以重写成如下的凸二次规划问题：
$\begin{aligned} &\operatorname*{min}_{w,b}\quad \frac{1}{2}\|w\|^2,\\ & s.t.\quad y_i(w\cdot x_i+b)\geq1,\quad i=1,2,\cdots,N. \end{aligned} \qquad (1)$
若 $D$ 是线性可分的，则上述凸二次规划问题的解存在且唯一。二次规划问题有很多算法可以求解，也有很多求解器能直接解决二次规划问题，如Mosek、Gurobi等。但是一般我们不直接求解原问题，而是求解其对偶问题，原因有几点：

对偶问题更简单，更容易求解，效率更高；
对偶问题将原始问题中的不等式约束转为了对偶问题中的等式约束；
对偶问题方便核函数的引入，进而可以推广到非线性分类问题。

下面推导原始问题的对偶问题。

（3）支持向量机的对偶问题

引入拉格朗日乘子，写出原问题(1)的拉格朗日函数：
$L(w,b,\alpha)=\frac{1}{2}\|w\|^{2}-\sum_{i=1}^{N}\alpha_{i}y_{i}(w\bullet x_{i}+b)+\sum_{i=1}^{N}\alpha_{i} \qquad (2)$
其中， $\alpha=(\alpha_1,\alpha_2,\cdots,\alpha_N)^{\mathrm{T}}$ 为拉格朗日乘子向量， $\alpha_i\geq 0,i=1,2,\cdots,N.$ 根据拉格朗日对偶性，原始问题的对偶问题是极大极小问题：
$\max_{\alpha}\min_{w,b}L(w,b,\alpha)$

所以，为了得到对偶问题的解，需要先求 $L(w,b,\alpha)$ 对 $w, b$ 的极小，再求对 α 的极大。将拉格朗日函数 $L(w,b,\alpha)$ 分别对 $w, b$ 求偏导数并令其等于 0:
$\begin{aligned}\nabla_wL(w,b,\alpha)&=w-\sum_{i=1}^N\alpha_iy_ix_i=0\\\nabla_bL(w,b,\alpha)&=-\sum_{i=1}^N\alpha_iy_i=0\end{aligned}$

得：

$\begin{aligned}w=\sum_{i=1}^N\alpha_iy_ix_i\end{aligned} \qquad (3)$

$\sum_{i=1}^N\alpha_iy_i=0 \qquad(4)$

将式 (3) 代入拉格朗日函数 (式 (2)), 并利用式 (4), 注意 $\|w\|^2=w^T\cdot w$ ，即得：
$\begin{aligned} L(w,b,\alpha)& =\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_{i}\alpha_{j}y_{i}y_{j}(x_{i}\cdot x_{j})-\sum_{i=1}^{N}\alpha_{i}y_{i}\left[\left(\sum_{j=1}^{N}\alpha_{j}y_{j}x_{j}\right)\cdot x_{i}+b\right]+\sum_{i=1}^{N}\alpha_{i} \\ &=-\frac12\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)+\sum_{i=1}^N\alpha_i. \end{aligned}$
也就是：

$\min_{w,b}L(w,b,\alpha)=-\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_{i}\alpha_{j}y_{i}y_{j}(x_{i}\cdot x_{j})+\sum_{i=1}^{N}\alpha_{i}.$

所以，我们得到对偶问题

$\begin{aligned} &\max_\alpha \quad -\frac12\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)+\sum_{i=1}^N\alpha_i,\\ &\text{s.t.}\qquad\sum_{i=1}^N\alpha_iy_i=0,\\ &\qquad\quad\alpha_i\geqslant0,\quad i=1,2,\cdots,N. \end{aligned}$

将上式的目标函数由求极大转换成求极小，就得到下面与之等价的对偶最优化问题：

$\begin{aligned} &\min_{\alpha} \quad\frac12\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)-\sum_{i=1}^N\alpha_i \\ &\text{s.t.}\qquad \begin{aligned}\sum_{i=1}^N\alpha_iy_i=0\end{aligned} \\ &\begin{aligned}\qquad\quad\alpha_i\geqslant0,\quad i=1,2,\cdots,N\end{aligned} \end{aligned} \qquad(5)$
如何求解对偶问题，不是本文讨论的重点，见参考资料《机器学习方法》第7章的SMO算法，这是一个效率比较高的求解这个对偶问题的算法。

（4）原问题解与对偶解的关系

设 $\alpha=(\alpha_1,\alpha_2,\cdots,\alpha_1)^T$ 为式(5)对偶问题的解， $(w, b)$ 为原问题的解，则由KKT最优性条件知最优解一定满足如下条件：
$\begin{aligned} y_i(w\cdot x_i+b)-1\geq0,i=1,2,\cdots,N. \qquad &\text{(原问题可行性)}\\ \alpha_i\geq0,i=1,2,\cdots,N.\qquad &\text{(对偶问题可行性)}\\ \alpha_i(y_i(w\cdot x_i+b)-1)=0,i=1,2,\cdots,N \qquad& \textbf{(互补松弛条件)} \end{aligned}$

由式(3)可知 $\alpha_i$ 不能全为0(否则 $w = 0$ ），不妨设 $\alpha_j>0$ , 则由互补松弛条件可得
$y_j(w\cdot x_j+b)=1.\qquad (6)$

将式(6)两边乘以 $y_j$ , 可得到

$b=y_j-w\cdot x_j=y_j-\sum_{i=1}^N\alpha_iy_ix_i\cdot x_j. (7)$
在得到对偶问题的解之后，我们可以由( 3)和( 7)得到原问题的解：
$\begin{aligned} w= &\sum_{i=1}^N\alpha_iy_ix_i \\ b=&y_j-\sum_{i=1}^N\alpha_iy_ix_i\cdot x_j. \end{aligned}$
由上式可知，只有 $a_i>0$ 的样例 $x_i,y_i)$ 才对模型的构建起作用。由互补松弛条件可知， $a_i>0$ 的的正例点和负例点正好分别落在间隔边界 $H_1:w\cdot x+b=1$ 和 $H_2:w\cdot x+b=-1$ 上，所以我们称这样的实例点 $x_i$ 为支持向量。

二、线性支持向量机

（1）软间隔最大化

线性可分问题的支持向量机学习方法对线性不可分训练数据是不适用的，因为这时上述方法中的不等式约束并不能都成立。本节将支持向量机推广到线性不可分数据集上。

假设给定一个特征空间上的训练数据集
$D=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$

其中， $x_i\in\mathcal{X}=\boldsymbol{R}^n,y_i\in\mathcal{Y}=\{+1,-1\},i=1,2,\cdots,N,x_i$ 为第 $i$ 个特征向量， $y_i$ 为 $x_i$ 的类标记。再假设训练数据集不是线性可分的。通常情况是，训练数据中有一些特异点(outlier), 将这些特异点除去后，剩下大部分的样本点组成的集合是线性可分的。

线性不可分意味着某些样本点 $x_i,y_i)$ 不能满足函数间隔大于等于 1 的约束条件，为了解决这个问题，可以对每个样本点 $x_i,y_i)$ 引进一个松弛变量 $\xi_i\geqslant0$ , 使函数间隔加上松弛变量大于等于 1。这样，约束条件变为

$y_i(w\bullet x_i+b)\geqslant1-\xi_i$

同时，对每个松弛变量 $\xi_i$ ，目标函数需要引入一个代价 $\xi_{i}$ 。目标函数由原来的 $\frac12\|w\|^2$ 变成

$\frac12\|w\|^2+C\sum_{i=1}^N\xi_i \qquad (8)$

这里， $C > 0$ 称为惩罚参数，一般由应用问题决定， $C$ 值大时对误分类的惩罚增大， $C$ 值小时对误分类的惩罚减小。最小化目标函数 (8) 包含两层含义：使 $\frac12\|w\|^2$ 尽量小即间隔尽量大，同时使误分类点的个数尽量少， $C$ 是调和二者的系数。

有了上面的思路，可以和训练数据集线性可分时一样来考虑训练数据集线性不可分时的线性支持向量机学习问题。相应于硬间隔最大化，它称为软间隔最大化。线性不可分的线性支持向量机的学习问题变成如下凸二次规划(convex quadratic programming) 问题(原始问题):

$\begin{aligned}\min_{w,b,\xi}&\quad\frac{1}{2}\|w\|^2+C\sum_{i=1}^{N}\xi_i\\\text{s.t.}&\quad y_i(w\cdot x_i+b)\geqslant1-\xi_i,\quad i=1,2,\cdots,N\\&\quad\xi_i\geqslant0,\quad i=1,2,\cdots,N\end{aligned}$

（2）对偶问题

引入拉格朗日乘子 $\alpha,\beta$ ，同理可以得到原问题的对偶问题：
$\begin{aligned} &\operatorname*{max}_{\alpha,\beta}\quad \begin{aligned}-\frac12\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)+\sum_{i=1}^N\alpha_i\end{aligned} \\ &\text{s.t.}\quad \begin{aligned}\sum_{i=1}^N\alpha_iy_i=0\end{aligned} \\ &\qquad C-\alpha_{i}-\beta_{i}=0 \\ & \qquad \alpha_{i}\geqslant0 \\ &\qquad \beta_{i}\geqslant0,\quad i=1,2,\cdots,N \end{aligned}$

进一步利用约束 $\alpha_i+\beta_i=\mathcal{C}$ 消去 $\beta_i$ , 得到如下对偶问题：
$\begin{aligned} &\max_{\alpha,\mu} \quad\sum_{i=1}^{N}\alpha_i-\frac12\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_jy_iy_j(x_i\cdot x_j) \\ &s.t. \quad \sum_{i=1}^N\alpha_iy_i=0\\ &\qquad\quad0\leq\alpha_i\leq C,\quad i=1,2,\cdots,N. \end{aligned}$

和 $D$ 线性可分的情形相比:

对偶问题的目标函数完全一样;
约束部分只是增加了约束 $\alpha_i\leq C.$

（3）最优性条件

由KKT最优性条件，对 $\forall i=1,2,\cdots,N$ 可得：

$\begin{aligned} y_i(w\cdot x_i+b)-1+\xi_i &\geq0 \quad \text{（原始问题可行性）} \\ \alpha_i &\geq0 \quad\text{（对偶问题可行性）}\\ \beta_i &\geq0 \quad\text{（对偶问题可行性）}\\ \alpha_i(y_i(w\cdot x_i+b)-1+\xi_i) &=0 \quad \text{（互补松弛条件）} \\ \beta_i\xi_i &=0 \quad \text{（互补松弛条件）} \end{aligned}$

对 $\alpha_i>0$ 的样本点 $x_i$ 来说，
$y_i(w\cdot x_i+b)=1-\xi_i.$
如果 $0<\alpha_i<C$ , 则 $C-\alpha_i=\beta_i>0$ , 由KKT条件可知 $\xi_i=0$ 。因此， $y_i(w\cdot x_i+b)=1$ .这意味着对于 $0<\alpha_i<C$ 的样本点 $x_i$ 仍然落在间隔边界 $H_1$ 或 $H_2$ 上。

进一步，将式 $y_i(w\cdot x_i+b)=1$ .两边乘以 $y_i$ , 可得到

$b=y_i-w\cdot x_i=y_i-\sum_{j=1}^N\alpha_jy_jx_j\cdot x_i.$

因此，在得到对偶问题的解之后，我们可以得到最优分离超平面
$\sum_{i=1}^N\alpha_iy_ix_i\cdot x+b=0.$

最优分离超平面的法向量 $w$ 惟一，但偏置不一定惟一；
通常在具体求解算法中用若干个如上求得的偏置的均值作为最优超平面的偏置的估计值.

截屏2023-12-21 16.51.48

对 $\alpha_i=C$ 来说，满足 $\xi_i>0$ 的支持向量都是特异点，每类点如上图所示，有如下特点：

$x_i$ 到所属类别的边界超平面的距离为 $\frac{\xi_i}{\|w\|}$
如果 $0<\xi_i<1$ , 则 $x_i$ 落在边界和分离超平面之间，仍然被正确分类.
如果 $\xi_i=1$ , 则 $x_i$ 正好落在分离超平面上.
如果 $\xi_i>1$ , 则 $x_i$ 被分离超平面错误分类.

（4）线性支持向量机的另一种解释

回顾引进松弛变量的初衷：

$\xi_i=0$ 对应的样本点 $x_i$ 都满足约束 $y_i(w\cdot x_i+b)\geq1.$
而对特异点 $x_i$ 来说， $\xi_i\geq1-y_i(w\cdot x_i+b).$

考虑到目标函数里面松弛的总幅度要尽可能小，对特异点 $x_i$ 我们这里不妨取

$\xi_i=1-y_i(w\cdot x_i+b).$
我们引进合页损失函数
$h(z)=\max(0,1-z),$
则 $\xi_i$ 可以用合页损失函数表示为：
$\xi_i=h\left(y_i(w\cdot x_i+b)\right).$
显然，这样的 $\xi_i$ 都满足放宽的约束.

$\begin{aligned}\min_{w,b,\xi}&\quad\frac{1}{2}\|w\|^2+C\sum_{i=1}^{N}\xi_i, \\ \text{s.t.}&\quad y_i(w\cdot x_i+b)\geqslant1-\xi_i,\quad i=1,2,\cdots,N,\\ &\quad\xi_i\geqslant0,\quad i=1,2,\cdots,N. \end{aligned}$

我们得到与上式等价的最优化问题：
$\min_{w,b}\frac12\parallel w\parallel^2+C\sum_{i=1}^Nh\left(y_i(w\cdot x_i+b)\right).$
这其实对应于损失函数为合页损失函数的结构风险最小化策略（见机器学习简介中的介绍）。
$\min_{w,b}\frac12\parallel w\parallel^2+C\sum_{i=1}^NI(\xi_i\neq0)$
与上式相比，
$\min_{w,b}\sum_{i=1}^Nh\left(y_i(w\cdot x_i+b)\right)+\frac1{2C}\parallel w\parallel^2.$
相当于我们合页损失函数来替代0-1损失函数。