支持向量机与SMO算法详解

最新推荐文章于 2023-04-20 00:17:20 发布

Chiak1

最新推荐文章于 2023-04-20 00:17:20 发布

阅读量510

点赞数 1

分类专栏：机器学习文章标签：机器学习支持向量机算法 smo算法

本文链接：https://blog.csdn.net/qq_43116030/article/details/104412612

版权

机器学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

文章目录

一、支持向量机基本型

在一个二维平面上划分两种类型的样本点可能有多种方案，那么如何选择最优的划分方案呢？最直观的方法是选择一条距离两种样本点“最远的”直线。例如下图中的加粗分割线：
多个可行超平面
拓展到高纬空间，划分不同样本的超平面则可以表示为： $w^Tx+b=0$ 。那么如何寻找到距离两种样本最远的超平面呢，可以将平面 $w^Tx+b=0$ 进行平移得到平面 $w^Tx+b=\xi$ 、 $w^Tx+b=-\xi$ 使这两个平面正好与两种样本点相切。对平面的表达式进行变形：
$\begin{cases} w^Tx+b=+\xi\\w^Tx+b=-\xi \end{cases} \Rightarrow \begin{cases} \frac{w^T}{\xi}x+\frac{b}{\xi}=+1\\\frac{w^T}{\xi}x+\frac{b}{\xi}=-1 \end{cases}$
令 $w^T=\frac{w^T}{\xi}$ ， $b=\frac{b}{\xi}$ ，则有下图：

其中，与超平面 $w^Tx+b=1$ ， $w^Tx+b=-1$ 相切的样本点被称为支持向量，这两个平面我简称为支持平面，那么 $r=\frac{2}{\|w\|}$ 则为两个支持平面之间的间隔。
想要使超平面 $w^Tx+b=0$ 正确划分样本点，同时尽量使 $r$ 最大，则可以建立如下数学模型：
$\argmax_{w,b}\frac{2}{\|w\|}\\ s.t.\; \begin{cases} w^Tx_i+b≥+1,\qquad y_i=+1\\ w^Tx_i+b≤-1,\qquad y_i=-1 \end{cases}$
其中 $s t$ 条件可以简化为： $y_i(w^Tx_i+b)≥1$ 。整个问题则可以简化为：
$\argmin_{w,b}\frac{\|w\|^2}{2}\\ s.t.\;y_i(w^Tx_i+b)≥1,i=1,2,3...,m$
这便是支持向量机的基本数学模型。

二、问题求解

2.1 对偶问题

通过对偶问题往往能有效解决一些复杂的问题，这里可以通过拉格朗日乘数法求出支持向量机基本型的对偶问题。
$L(w,b,\alpha)=\frac{\|w\|^2}{2}+\sum_{i=1}^m{\alpha_i(1-y_i(w^Tx_i+b))},\alpha_i≥0$
使拉格朗日函数 $L$ 分别对 $w, b$ 求偏导，可得：
$\frac{\partial L}{\partial w}=w-\sum_{i=1}^m{\alpha_iy_ix_i}\qquad \frac{\partial L}{\partial b}=-\sum_{i=1}^m{\alpha_iy_i}$
令值为0，可得：
$w=\sum_{i=1}^m{\alpha_iy_ix_i}\qquad \sum_{i=1}^m{\alpha_iy_i}=0$
代入拉格朗日函数：
$\begin{aligned} L &=\frac{1}{2}\sum^{m}_{i=1}{\alpha_iy_ix_i^T}\sum^{m}_{i=1}{\alpha_iy_ix_i}+\sum_{i=1}^m{\alpha_i(1-y_i( \sum_{j=1}^m{\alpha_jy_jx_j^T}x_i+b))}\\ &=\frac{1}{2}\sum^{m}_{i=1}\sum^{m}_{j=1}{\alpha_iy_ix_i^T\alpha_jy_jx_j}+\sum_{i=1}^m\alpha_i-\sum_{i=1}^m{\alpha_iy_i}(\sum_{j=1}^m{\alpha_jy_jx_j^Tx_i}+b)\\ &=-\frac{1}{2}\sum^{m}_{i=1}\sum^{m}_{j=1}{\alpha_iy_ix_i^T\alpha_jy_jx_j}+\sum_{i=1}^m\alpha_i \end{aligned}$
固定 $w, b$ ，设 $b)=\max L(w,b,\alpha)$ ，则有：
$\arg\min_{w,b}L(w,b)=\arg\min_{w,b}\max_{\alpha}L(w,b,\alpha)=\arg\max_{\alpha}\min_{w,b}L(w,b,\alpha)=\argmax_{\alpha}L(\alpha)$

即，原问题可以转换为如下的对偶问题：
$\argmin_{\alpha}(\frac{1}{2}\sum^{m}_{i=1}\sum^{m}_{j=1}{\alpha_iy_ix_i^T\alpha_jy_jx_j}-\sum_{i=1}^m\alpha_i)\\ s.t.\sum_{i=1}^m{\alpha_iy_i}=0$
由KKT条件第三条定理可得：
$\begin{cases} \alpha≥0\\ y_i(w^Tx_i+b)≥1\\ \sum_{i=1}^m{\alpha_i(1-y_i(w^Tx_i+b))}=0 \end{cases}$

2.2 使用SMO算法

SMO算法，即序列最小优化算法，这是一种针对SVM的高效优化算法。其基本思想如下：
想要优化整个 $\alpha$ 序列，则可以考虑先固定其余的 $\alpha$ ，剩余一个 $\alpha_i$ ，并通过求函数在 $\alpha_i$ 上的极值点来更新 $\alpha_i$ ，从而可以依次求解出所有的 $\alpha$ 。
然而，由于约束 $\sum_{i=1}^m{\alpha_iy_i}=0$ 的存在，一旦固定 $m - 1$ 个 $\alpha$ ，那么剩下的那个 $\alpha_i$ 也将被固定。所以实际上SMO算法通常选取两个 $\alpha$ ，即 $\alpha_i$ 与 $\alpha_j$ 。通过不断地迭代选取和更新 $\alpha_i$ 与 $\alpha_j$ 直至收敛，即可完成优化。
以上是通过SMO算法优化2.1中提出的对偶问题的基本思路，其具体数学推导过程将在四、SMO算法中详细介绍。

三、处理线性不可分的情况

设想有如下情况：数据集中出现异常数据，导致少量样本点远离其同类样本点群，如果SVM还按照原本的规则进行划分，则可能找到一个狭窄的超平面导致过拟合，甚至还可能根本找不到可行的超平面，例如：
线性不可分
为了防止这种情况的产生，SVM采用了一些新的技巧。

3.1 软间隔与正则化

引入软间隔的目的是为了允许SVM在一些样本上出错，即允许部分样本不服从以下约束：
$y_i(w^Tx_i+b)≥1$
但是，不满足条件的样本应当尽可能少，所以优化函数可以改写为：
$\argmin_{w,b}\frac{1}{2}\|w\|^2+\lambda\sum^{m}_{i=1}{l(y_i(w^Tx_i+b)-1)}$
$\begin{cases} 1,\qquad\text{if}\,x<0;\\0,\qquad\text{otherwise.} \end{cases}$
通过这样的“罚分”技巧以及正则化，可以有效控制SVM对错误样本的容忍度。但是函数 $l (x)$ 是一个阶跃函数，数学性质不好，所以一般使用如下函数来进行代替：

hinge损失函数： $l_{hinge}(x)=\max(0,1-x)$ ；
指数损失函数： $l_{exp}(x)=e^{-x}$ ；
对率损失函数： $l_{log}(x)=\log(1+e^{-z})$ 。

根据上面的罚分函数，可以引入一个松弛变量 $\xi_i≥0$ ，然后将优化函数简写为：
$\argmin_{w,b}\frac{1}{2}\|w\|^2+C\sum^{m}_{i=1}\xi_i\\s.t.\;y_i(w^Tx_i+b)≥1-\xi_i\quad\xi_i≥0$
同样使用拉格朗日乘数法，写出上述优化函数的拉格朗日函数：
$L(w,b,\xi,\alpha,\mu)=\frac{1}{2}\|w\|^2+C\sum^{m}_{i=1}\xi_i+\sum^{m}_{i=1}{\alpha_i(1-\xi_i-y_i(w^Tx_i+b))-\sum^{m}_{i=1}{\mu_i\xi_i}}\\\alpha≥0,\;\mu≥0$
令上式分别对 $w$ 、 $b$ 、 $\xi$ 的偏导为0可得：
$w=\sum^{m}_{i=1}{\alpha_iy_ix_i}\qquad0=\sum^{m}_{i=1}{\alpha_iy_i}\qquad C=\alpha_i+\mu_i$
将上面的三个式子代入原式可得原问题的对偶问题：
$\argmin_\alpha(\frac{1}{2}\sum^{m}_{i=1}\sum^{m}_{j=1}{\alpha_i\alpha_jy_iy_jx_i^Tx_j}-\sum^{m}_{i=1}\alpha_i)\\ s.t. \sum^{m}_{i=1}{\alpha_iy_i}=0,\;0≤\alpha≤C$
由KKT条件可得：
$\begin{cases} \xi≥0\\ \alpha≥0,\quad\mu≥0\\ \alpha_i+\mu_i=C\\ y_i(w^Tx_i+b)≥1-\xi_i\\ \sum_{i=1}^m\alpha_i(y_i(w^Tx_i+b)-1+\xi_i)=0\\ \sum_{i=1}^m\mu_i\xi_i=0 \end{cases}$
通过观察可以发现，软间隔SVM的对偶问题和硬间隔的在形式上一致，只是约束条件由 $\alpha≥0$ 变成了 $0≤\alpha≤C$ ，其求解方法和硬间隔SVM一致。

3.2 核函数

对于一个线性不可分的数据集，可以考虑通过函数映射将其映射到更高维度的空间内使之线性可分，例如：
空间映射
事实上，只要原始空间是有限维，即特征数量有限，那么便一定存在一个更高维度的特征空间使样本线性可分。假设映射后的样本为 $x^*$ ，那么对偶问题就变成了：
$\argmin_\alpha(\frac{1}{2}\sum^{m}_{i=1}\sum^{m}_{j=1}{\alpha_i\alpha_jy_iy_jx_i^{*T}x_j^*}-\sum^{m}_{i=1}\alpha_i)\\ s.t. \sum^{m}_{i=1}{\alpha_iy_i}=0,\;0≤\alpha≤C$
这里涉及了 $x^{*T}x^*$ 的运算，由于映射后的空间维度可能很高从而导致计算的代价极大，这里可以设计一个函数：
$\kappa(x_i,x_j)=x^{*T}_ix^*_i$
这个函数就叫做核函数。通过核函数，可以避免计算映射后的高维空间内积，这种方法叫做核技巧。于是对偶问题可以改写为：
$\argmin_\alpha(\frac{1}{2}\sum^{m}_{i=1}\sum^{m}_{j=1}{\alpha_i\alpha_jy_iy_j\kappa(x_i,x_j)}-\sum^{m}_{i=1}\alpha_i)\\ s.t. \sum^{m}_{i=1}{\alpha_iy_i}=0,\;0≤\alpha≤C$
下面列举一些常用的核函数：

名称	表达式	参数
线性核	$\kappa(x_i,x_j)=x_i^Tx_j$	无
多项式核	$\kappa(x_i,x_j)=(x_i^Tx_j)^d$	d≥1为多项式的次数
高斯核（RBF核）	$\kappa(x_i,x_j)=\exp(-\frac{\\|x_i-x_j\\|^2}{2\sigma^2})$	$\sigma>0$ 为高斯核的带宽
拉普拉斯核	$\kappa(x_i.x_j)=\exp(-\frac{\\|x_i-x_j\\|}{\sigma})$	$\sigma>0$
Sigmoid核	$\kappa(x_i,x_j)=\tanh(\beta x_i^Tx_j+\theta)$	$\beta>0,\;\theta<0$

除此之外，对于核函数 $\kappa_1,\kappa_2$ ，有以下结论：

核函数的线性组合也是核函数： $\kappa_3=\alpha\kappa_1+\beta\kappa_2$ ；
核函数的直积也是核函数： $\kappa_3(x,y)=\kappa_1(x,y)\kappa_2(x,y)$ ；
对于任意函数 $g$ ，有： $\kappa_3(x,y)=g(x)\kappa_1(x,y)g(y)$ 。

四、SMO算法

先给出带核函数的软间隔SVM待优化问题：
$\argmin_\alpha(\frac{1}{2}\sum^{m}_{i=1}\sum^{m}_{j=1}{\alpha_i\alpha_jy_iy_j\kappa(x_i,x_j)}-\sum^{m}_{i=1}\alpha_i)\\ s.t. \sum^{m}_{i=1}{\alpha_iy_i}=0,\;0≤\alpha≤C$
KKT条件如下：
$\begin{cases} \xi≥0\\ \alpha≥0,\quad\mu≥0\\ \alpha_i+\mu_i=C\\ y_i(w^Tx_i+b)≥1-\xi_i\\ \sum_{i=1}^m\alpha_i(y_i(w^Tx_i+b)-1+\xi_i)=0\\ \sum_{i=1}^m\mu_i\xi_i=0 \end{cases}$
下面对 $\alpha_i$ 进行讨论：

$\alpha_i=0$ ：
$\begin{aligned} \alpha_i=0,\alpha_i+\mu_i=C\Rightarrow&\mu_i>0\\ \mu_i>0,\sum_{i=1}^m{\mu_i\xi_i}=0\Rightarrow&\xi_i=0\\ \xi_i=0,y_i(w^Tx_i+b)≥1-\xi_i\Rightarrow&y_i(w^Tx_i+b)≥1 \end{aligned}$
$\alpha_i=C$ ：
$\begin{aligned} \alpha_i=C,\alpha_i+\mu_i=C\Rightarrow&\mu_i=0\\ \mu_i=0,\sum_{i=1}^m{\mu_i\xi_i}=0\Rightarrow&\xi_i≥0\\ \alpha_i=C,\sum_{i=1}^m\alpha_i(y_i(w^Tx_i+b)-1+\xi_i)=0\Rightarrow&y_i(w^Tx_i+b)=1-\xi_i\\ \xi_i≥0,y_i(w^Tx_i+b)=1-\xi_i\Rightarrow&y_i(w^Tx_i+b)≤1 \end{aligned}$
$0<\alpha_i<C$ ：
$\begin{aligned} 0<\alpha_i<C,\alpha_i+\mu_i=C\Rightarrow&0<\mu_i<C\\ 0<\mu_i<C,\sum_{i=1}^m{\mu_i\xi_i}=0\Rightarrow&\xi_i=0\\ 0<\alpha_i<C,\sum_{i=1}^m\alpha_i(y_i(w^Tx_i+b)-1+\xi_i)=0\Rightarrow&y_i(w^Tx_i+b)=1-\xi_i\\ \xi_i=0,y_i(w^Tx_i+b)=1-\xi_i\Rightarrow&y_i(w^Tx_i+b)=1 \end{aligned}$
总结出新的KKT条件如下：
$\begin{cases} y_i(w^Tx_i+b)≥1,\quad\alpha_i=0\\ y_i(w^Tx_i+b)=1,\quad0<\alpha_i<C\\ y_i(w^Tx_i+b)≤1,\quad\alpha_i>C \end{cases}$

4.1 参数选择

SMO算法需要从 $\alpha$ 序列中选择出合适的 $\alpha_i$ 和 $\alpha_j$ 进行迭代更新。由于只要有一个选中的 $\alpha$ 不满足KKT条件，目标函数就会减小，所以可以从 $\alpha$ 中选择出一个不满足KKT条件的作为 $\alpha_i$ ，然后再选择一个和 $\alpha_i$ 对应样本差距最大的 $\alpha$ 作为 $\alpha_j$ 。这个所谓“差距”的衡量方法是计算 $y_i^*-y_i-(y_j^*-y_j)|$ ，原因通过后面的公式推导可以知道。

4.2 更新 $\alpha_i,\alpha_j$

假设选择出的两个 $\alpha$ 分别为 $\alpha_1,\alpha_2$ ，则原目标函数可以简化为：
$\argmin_{\alpha_1,\alpha_2}f(\alpha_1,\alpha_2)=\frac{1}{2}\alpha_1^2\kappa_{11}+\frac{1}{2}\alpha_2^2\kappa_{22}+\alpha_1\alpha_2y_1y_2\kappa_{12}+\alpha_1y_1u_1+\alpha_2y_2u_2-\alpha_1-\alpha_2-u_3\\ s.t.\alpha_1y_1+\alpha_2y_2=c$
其中，
$u_1=\sum_{i=3}^m{\alpha_iy_i\kappa_{1i}}\quad u_2=\sum_{i=3}^m{\alpha_iy_i\kappa_{2i}}\quad u_3=\sum_{i=3}^m\alpha_i\quad c=-\sum_{i=3}^m{\alpha_iy_i}$
在 $\alpha_1y_1+\alpha_2y_2=c$ 两边乘 $y_1$ ，可得： $\alpha_1=y_1c-\alpha_2y_1y_2$ ，代入目标函数：
$\begin{aligned} \argmin_{\alpha_2}f(\alpha_2)=&\frac{1}{2}\alpha_1^2\kappa_{11}+\frac{1}{2}\alpha_2^2\kappa_{22}+\alpha_1\alpha_2y_1y_2\kappa_{12}+\alpha_1y_1u_1+\alpha_2y_2u_2-\alpha_1-\alpha_2-u_3\\ =&\frac{1}{2}\kappa_{11}c^2+\frac{1}{2}\alpha_2^2\kappa_{11}-\alpha_2y_2\kappa_{11}c+\frac{1}{2}\alpha_2^2\kappa_{22}+\alpha_2y_2\kappa_{12}c-\alpha_2^2\kappa_{12}+u_1c-\alpha_2y_2u_1\\&+\alpha_2y_2u_2-y_1c+\alpha_2y_1y_2-\alpha_2-u_3\\ =&\frac{1}{2}(\kappa_{11}+\kappa_{22}-2\kappa_{12})\alpha_2^2+(y_2\kappa_{12}c-y_2\kappa_{11}c-y_2u_1+y_2u_2+y_1y_2-1)\alpha_2+const \end{aligned}$
将函数 $f(\alpha_2)$ 对 $\alpha_2$ 求导，
$\frac{\partial f}{\partial\alpha_2}=(\kappa_{11}+\kappa_{22}-2\kappa_{12})\alpha_2+y_2\kappa_{12}c-y_2\kappa_{11}c-y_2u_1+y_2u_2+y_1y_2-1$
设更新后的 $\alpha$ 为 $\alpha^*$ ，最终学得的SVM模型为 $f(x)=w^Tx+b=\sum_{i=1}^m\alpha_iy_i\kappa(x_i,x)+b$ ，误差则为 $E_i=f(x_i)-y_i$ 。同时，还有：
$c=\alpha_1y_1+\alpha_2y_2=\alpha_1^*y_1+\alpha_2^*y_2\\ u_1=\sum_{i=3}^m{\alpha_iy_i\kappa(x_i,x_1)}=f(x_1)-\sum_{i=1}^2{\alpha_iy_i\kappa_{i1}}-b\\ u_2=\sum_{i=3}^m{\alpha_iy_i\kappa(x_i,x_2)}=f(x_2)-\sum_{i=1}^2{\alpha_iy_i\kappa_{i2}}-b$
将 $E_i,c,u_1,u_2$ 代入导数，同时令导数为0，可得：
$\begin{aligned} (\kappa_{11}+\kappa_{22}-2\kappa_{12})\alpha_2^*=&1-y_2\kappa_{12}c+y_2\kappa_{11}c+y_2f(x_1)-y_2\sum_{i=1}^2{\alpha_iy_i\kappa_{i1}}-y_2b-y_2f(x_2)+y_2\sum_{i=1}^2{\alpha_iy_i\kappa_{i2}}\\&+y_2b-y_1y_2\\ \Rightarrow(\kappa_{11}+\kappa_{22}-2\kappa_{12})\alpha_2^*=&(\kappa_{11}+\kappa_{22}-2\kappa_{12})\alpha_2+y_2(f(x_1)-y_1-(f(x_2)-y_2))\\ \Rightarrow(\kappa_{11}+\kappa_{22}-2\kappa_{12})\alpha_2^*=&(\kappa_{11}+\kappa_{22}-2\kappa_{12})\alpha_2+y_2(E_1-E_2)\\ \Rightarrow\alpha_2^*=&\alpha_2+y_2\frac{E_1-E_2}{\kappa_{11}+\kappa_{22}-2\kappa_{12}} \end{aligned}$
记 $\eta=\kappa_{11}+\kappa_{22}-2\kappa_{12}$ ，则有如下更新公式：
$\alpha_2^*=\alpha_2+y_2\frac{E_1-E_2}{\eta}$
从这个更新公式不难看出，之所以第二个参数要选择使 $E_1-E_2|$ 最大的，是为了让参数更新得更快。
此时计算的参数没有考虑约束，下面讨论参数的范围：

$y_1=y_2$ ：则有 $\alpha_1+\alpha_2=\alpha_1^*+\alpha_2^*=c$ ，进一步讨论：
- $if:\alpha_1^*=0\Rightarrow\alpha_{2max}^*=\min(C,\alpha_1+\alpha_2)$
- $if:\alpha_1^*=C\Rightarrow\alpha_{2min}^*=\max(0,\alpha_1+\alpha_2-C)$
$y_1≠y_2$ ：则有 $\alpha_1-\alpha_2=\alpha_1^*-\alpha_2^*=c$ ，进一步讨论：
- $if:\alpha_1^*=0\Rightarrow\alpha_{2min}^*=\max(0,\alpha_2-\alpha_1)$
- $if:\alpha_1^*=C\Rightarrow\alpha_{2max}^*=\min(C,C+\alpha_2-\alpha_1)$

上面便是 $\alpha_2^*$ 的参数范围，进行修正后通过下述公式便可以计算出 $\alpha_1^*$ ：
$\alpha_1^*=\frac{\alpha_1y_1+\alpha_2y_2-\alpha_2^*y_2}{y_1}$

4.3 计算 $w, b$

$w$ 的计算很简单，由于之间已经推导出公式： $w=\sum^{m}_{i=1}{\alpha_iy_ix_i}$ 直接计算即可。

$b$ 的计算通过KKT条件： $y_i(w^Tx_i+b)=1\Rightarrow w^Tx_i+b=y_i\Rightarrow b=y_i-w^Tx_i$ 可以计算得到。此KKT条件要求 $0<\alpha_i<C$ ，所以 $b$ 的取值一般为：
$b^*= \begin{cases} b_1^*,0<\alpha_1<C\\ b_2^*,0<\alpha_2<C\\ (b_1^*+b_2^*)/2,others\\ \end{cases}$