07_支持向量机3_统计学习方法

最新推荐文章于 2022-09-07 20:24:44 发布

Hayden112

最新推荐文章于 2022-09-07 20:24:44 发布

阅读量251

点赞数

分类专栏：统计学习方法文章标签： SMO 统计学习方法支持向量机 SVM

本文链接：https://blog.csdn.net/weixin_42432468/article/details/95875804

版权

统计学习方法专栏收录该内容

19 篇文章 0 订阅

订阅专栏

文章目录

五、SMO算法

支持向量机内容特别多，为了方便阅读，分成三个部分，上接：
07_支持向量机1_统计学习方法
 07_支持向量机2_统计学习方法。

五、SMO算法

KKT条件中的（k4）（k5）还没有使用过，这两个条件主要就是用来求解参数 $\alpha , \mu$ 的。但是对于样本数量和特征比较多的时候，这么硬干是非常耗费内存和时间的。所以在求解参数 $\alpha$ 时，大牛们使用了更有效的方法——SMO算法（序列最小最优算法），如果没理解错的话就是化整为零，分而治之的思想。

SMO算法是一种启发式算法，其基本思路是：如果所有变量的解都满足此最优化问题的KKT条件，那么这个最优化问题的解就得到了。因为KKT条件是该最优化问题的充分必要条件。SMO思路，选择两个变量，固定其他变量，针对这两个变量构建一个二次规划问题，这个二次规划问题关于这两个变量的解应该更接近原始二次规划问题的解，因为这会使得原始二次规划问题的目标函数值变得更小。重要的是，这时子问题可以通过解析方法求解，这样就可以大大提高整个算法的计算速度。子问题有两个变量，一个是违反KKT条件最严重的那一个，另一个由约束条件自动确定。如此，SMO算法将原问题不断分解为子问题并对子问题求解，进而达到求解原问题的目的。

非线性支持向量机的优化问题：
$\begin{aligned} \min_{\alpha}\space\space & \dfrac{1}{2}\sum_{i=1}^N\sum_{j=1}^N \alpha_i \alpha_j y_i y_j K({\bf x_i} , {\bf x_j}) - \sum_{i=1}^N \alpha_i \\ s.t. \space\space & \sum_{i=1}^N \alpha_i y_i = 0 \\ & 0 \leq \alpha_i \leq C ,\space\space i=1,2,\cdots ,N \end{aligned}$

1、两个变量二次规划的求解方法

（1）定义子问题

假设选择的两个变量是 $\alpha_1,\alpha_2$ ，其他变量 $\alpha_i(i=3,4,\cdots , N)$ 是固定的。于是上面非线性支持向量机的优化问题的SMO子问题可以写成：
$\begin{aligned} \min_{\alpha_1,\alpha_2}\space\space W(\alpha_1,\alpha_2) & = \dfrac{1}{2}\sum_{i=1}^N\sum_{j=1}^N \alpha_i \alpha_j y_i y_j K({\bf x_i} , {\bf x_j}) - \sum_{i=1}^N \alpha_i \\ & = \dfrac{1}{2}\sum_{i=1}^N \left( \sum_{j=1}^2 \alpha_i \alpha_j y_i y_j K({\bf x_i} , {\bf x_j}) + \sum_{j=3}^N \alpha_i \alpha_j y_i y_j K({\bf x_i} , {\bf x_j}) \right) - (\alpha_1 + \alpha_2) - \sum_{i=3}^N \alpha_i \\ & = \dfrac{1}{2}\sum_{i=1}^2 \left( \sum_{j=1}^2 \alpha_i \alpha_j y_i y_j K({\bf x_i} , {\bf x_j}) + \sum_{j=3}^N \alpha_i \alpha_j y_i y_j K({\bf x_i} , {\bf x_j}) \right) \\ &+ \dfrac{1}{2}\sum_{i=3}^N \left( \sum_{j=1}^2 \alpha_i \alpha_j y_i y_j K({\bf x_i} , {\bf x_j}) + \sum_{j=3}^N \alpha_i \alpha_j y_i y_j K({\bf x_i} , {\bf x_j}) \right) - (\alpha_1 + \alpha_2) - \sum_{i=3}^N \alpha_i \\ & = \dfrac{1}{2}\sum_{i=1}^2 \sum_{j=1}^2 \alpha_i \alpha_j y_i y_j K({\bf x_i} , {\bf x_j}) + \sum_{i=1}^2 \sum_{j=3}^N \alpha_i \alpha_j y_i y_j K({\bf x_i} , {\bf x_j}) \\ &+ \dfrac{1}{2}\sum_{i=3}^N \sum_{j=3}^N \alpha_i \alpha_j y_i y_j K({\bf x_i} , {\bf x_j}) - (\alpha_1 + \alpha_2) - \sum_{i=3}^N \alpha_i \\ & = \dfrac{1}{2}K_{11} \alpha_1^2 + \dfrac{1}{2}K_{22} \alpha_2^2 + y_1 y_2 K_{12}\alpha_1 \alpha_2 + y_1 \alpha_1 \sum_{i=3}^N y_i \alpha_i K_{i1} + y_2 \alpha_2 \sum_{i=3}^N y_i \alpha_i K_{i2} \\ &- (\alpha_1 + \alpha_2) - \sum_{i=3}^N \alpha_i + \dfrac{1}{2}\sum_{i=3}^N \sum_{j=3}^N \alpha_i \alpha_j y_i y_j K({\bf x_i} , {\bf x_j}) \end{aligned}$

上式最后两项为常数项，对于求解最优的 $\alpha_1,\alpha_2$ 毫无作用，舍去，则有SMO对于变量 $\alpha_,\alpha_2$ 的子问题可以写成：
$\begin{aligned} \min_{\alpha_1,\alpha_2}\space\space & W(\alpha_1,\alpha_2) = \dfrac{1}{2}K_{11} \alpha_1^2 + \dfrac{1}{2}K_{22} \alpha_2^2 + y_1 y_2 K_{12}\alpha_1 \alpha_2 + y_1 \alpha_1 \sum_{i=3}^N y_i \alpha_i K_{i1} + y_2 \alpha_2 \sum_{i=3}^N y_i \alpha_i K_{i2} - (\alpha_1 + \alpha_2) &\space\space\space\space(29)\\ s.t.\space\space & \alpha_1 y_1 + \alpha_2 y_2 = -\sum_{i=3}^N y_i \alpha_i = \zeta &\space\space\space\space(30)\\ & 0 \leq \alpha_1 \leq C ,i =1,2 &\space\space\space\space(31) \end{aligned}$

$K_{ij} = K(x_i,x_j),i,j =1,2,\cdots,N$
$\zeta$ 是常数

（2）确定变量范围

由于只有两个变量 $(\alpha_1,\alpha_2)$ ，约束可以用二维空间中的图形表示，如下图：

二变量优化问题图示

不等式约束（31)使得 $(\alpha_1,\alpha_2)$ 在盒子 $\times [0,C]$ 内；
等式约束（30）使得 $(\alpha_1,\alpha_2)$ 在平行于盒子 $\times [0,C]$ 的对角线的直线上。

因此要求的是目标函数在一条平行于对角线的线段上的最优值。这使得两个变量的最优化问题成为实质上的单变量的最优化问题，不妨考虑为变量 $\alpha_2$ 的最优化问题。

假设问题（29）-（31）的初始可行解为 $\alpha_1^{old},\alpha_2^{old}$ ，最优解为 $\alpha_1^{new},\alpha_2^{new}$ ，并且假设在沿着约束方向未经剪辑时 $\alpha_2$ 的最优解为 $\alpha_2^{new,unc}$ ， $\alpha_2$ 剪辑后的解为 $\alpha_2^{new}$ 。
$\alpha_2^{new}$ 必须满足式（31），则 $\alpha_2^{new}$ 的取值范围必须满足：
$\leq \alpha_2^{new} \leq H$

因为有式（30），则有：
$\alpha_1^{old} y_1 + \alpha_2^{old} y_2 = -\sum_{i=3}^N y_i \alpha_i = \alpha_1^{new} y_1 + \alpha_2^{new} y_2 \tag{32}$

当 $y_1与y_2$ 异号时：
$\alpha_1^{old} y_1 y_2 + \alpha_2^{old} y_2^2 = \alpha_1^{new} y_1 y_2 + \alpha_2^{new} y_2^2 \Longrightarrow \alpha_2^{new} = \alpha_2^{old} - \alpha_1^{old} + \alpha_1^{new}$
又因为：
$\leq \alpha_1 \leq C,\space\space 0 \leq \alpha_2 \leq C$
所以有：
$\max(0,\alpha_2^{old} - \alpha_1^{old}),\space\space H = \min(C,C + \alpha_2^{old} - \alpha_1^{old})$
当 $y_1与y_2$ 同号时：
$\alpha_1^{old} y_1 y_2 + \alpha_2^{old} y_2^2 = \alpha_1^{new} y_1 y_2 + \alpha_2^{new} y_2^2 \Longrightarrow \alpha_2^{new} = \alpha_2^{old} + \alpha_1^{old} - \alpha_1^{new}$
所以有：
$\max(0,\alpha_2^{old} + \alpha_1^{old}- C),\space\space H = \min(C, \alpha_2^{old} + \alpha_1^{old})$

（3）最优求解

为了方便书写，令：
$\begin{aligned} & g(x) = \sum_{j=1}^N \alpha_j y_j K(x,x_j) + b &\space\space\space\space(w1)\\ & \nu_i = \sum_{j=3}^N \alpha_j y_j K(x_i,x_j) = g(x_i) - \sum_{j=1}^2 \alpha_j y_j K(x_i,x_j) - b &\space\space\space\space(w2)\\ & E_i = g(x_i) - y_i = \left(\sum_{j=1}^N \alpha_j y_j K(x_i,x_j) + b \right) - y_i &\space\space\space\space(w3)\\ & \eta = K_{11} + K_{22} - 2K_{12} = ||\phi(x_1) - \phi(x_2)||^2 &\space\space\space\space(w4) \end{aligned}$

当 $i = 1, 2$ 时， $E_i$ 为函数 $g (x)$ 对输入 $x_i$ 的预测值与真实输出 $y_i$ 之差。
$\phi(x)$ 是输入空间到特征空间的映射

则目标函数可以写成：
$\begin{aligned} W(\alpha_1,\alpha_2) & = \dfrac{1}{2}K_{11} \alpha_1^2 + \dfrac{1}{2}K_{22} \alpha_2^2 + y_1 y_2 K_{12}\alpha_1 \alpha_2 + y_1 \alpha_1 \sum_{i=3}^N y_i \alpha_i K_{i1} + y_2 \alpha_2 \sum_{i=3}^N y_i \alpha_i K_{i2} - (\alpha_1 + \alpha_2) \\ & = \dfrac{1}{2}K_{11} \alpha_1^2 + \dfrac{1}{2}K_{22} \alpha_2^2 + y_1 y_2 K_{12}\alpha_1 \alpha_2 + y_1 \nu_1 \alpha_1 + y_2 \nu_2 \alpha_2 - (\alpha_1 + \alpha_2) \tag{33} \end{aligned}$

由 $\alpha_1 y_1 = \zeta - \alpha_2 y_2 及 y_i^2 =1$ ，可将 $\alpha_1$ 表示为：
$\alpha_1 = (\zeta - y_2 \alpha_2) y_1$
将上式 $\alpha_1$ 代入目标函数（33）得到只含有 $\alpha_2$ 的目标函数：
$W(\alpha_2) = \dfrac{1}{2}K_{11} (\zeta - \alpha_2 y_2)^2 + \dfrac{1}{2}K_{22} \alpha_2^2 + y_2 K_{12}(\zeta - \alpha_2 y_2) \alpha_2 + \nu_1 (\zeta - \alpha_2 y_2) + y_2 \nu_2 \alpha_2 - (\zeta - y_2 \alpha_2) y_1 - \alpha_2 \tag{34}$
上式对 $\alpha_2$ 求导得：
$\dfrac {\partial W}{\partial {\alpha_2}} = K_{11} \alpha_2 - K_{11}\zeta y_2 + K_{22} \alpha_2 + K_{12}\zeta y_2 - 2K_{12}\alpha_2 - \nu_1 y_2 + y_2 \nu_2 + y_1 y_2 -1$
令其为0，得到：
$\begin{aligned} \left(K_{11} + K_{22} - 2K_{12}\right)\alpha_2 &= K_{11}\zeta y_2 - K_{12}\zeta y_2 + \nu_1 y_2 - y_2 \nu_2 - y_1 y_2 + y_2^2 \\ & = y_2[ K_{11}\zeta - K_{12}\zeta + \left( g(x_1) - \sum_{j=1}^2 \alpha_j y_j K_{1j} - b \right) - \left( g(x_2) - \sum_{j=1}^2 \alpha_j y_j K_{2j} - b \right) - y_1 + y_2 ] \end{aligned}$

将 $\zeta = \alpha_1^{old} y_1 + \alpha_2^{old} y_2$ 代入得到：
$\begin{aligned} \left(K_{11} + K_{22} - 2K_{12}\right)\alpha_2^{new,unc} &= y_2((K_{11} + K_{22} - 2K_{12})\alpha_2^{old} y_2 + y_2 - y_1 + g(x_1)-g(x_2)) \\ & = (K_{11} + K_{22} - 2K_{12})\alpha_2^{old} + y2(E_1 - E_2) \end{aligned}$
将 $\eta = K_{11} + K_{22} - 2K_{12} = ||\phi(x_1) - \phi(x_2)||^2$ 代入得到：
$\alpha_2^{new,unc} = \alpha_2^{old} + \dfrac{y_2(E_1 - E_2)}{\eta} \tag{35a}$

则得到剪辑后的 $\alpha_2$ 的解为：
$\alpha_2^{new} = \begin{cases} H, & \alpha_2^{new,unc} > H \\[2ex] \alpha_2^{new,unc}, & L \leq \alpha_2^{new,unc} \leq H \tag{35}\\[2ex] L, & \alpha_2^{new,unc} < L \end{cases}$

由 $\alpha_2^{new}$ 和等式约束（32）求得 $\alpha_1^{new}$ 是：
$\alpha_1^{new} = \alpha_1^{old} + y_1 y_2 (\alpha_2^{old} - \alpha_2^{new} )$

于是得到问题（29）-（31）的解 $(\alpha_1^{new},\alpha_2^{new})$

（4）计算阈值b和差值E

在每次完成两个变量的优化后，都要重新计算阈值b和差值E。

阈值b更新

当 $\alpha_1^{new} < C$ 时，由KKT条件(k3)(k6)(k8)可知：
$\sum_{i=1}^N \alpha_i y_i K_{i1} + b = y_1$
于是，
$b_1^{new} = y_1 - \sum_{i=3}^N \alpha_i y_i K_{i1} - \alpha_1^{new} y_1 K_{11} - \alpha_1^{new} y_1 K_{11} \tag{36}$
由 $E_1$ 的定义有
$E_1 = \sum_{i=3}^N \alpha_i y_i K_{i1} + \alpha_1^{old} y_1 K_{11} + \alpha_2^{old} y_2 K_{21} + b^{old} - y_1$
则式（36）等号右侧的前两项可写成：
$y_1 - \sum_{i=3}^N \alpha_i y_i K_{i1} = -E_1 + \alpha_1^{old} y_1 K_{11} + \alpha_2^{old} y_2 K_{21} + b^{old}$
把上式代入式（36）可得：
$b_1^{new} = -E_1 - y_1 K_{11}（\alpha_1^{new} - \alpha_1^{old}) - y_2 K_{21}（\alpha_2^{new} - \alpha_2^{old}) + b^{old} \tag{37}$

同样，如果 $\alpha_2^{new} < C$ ，那么，
$b_2^{new} = -E_2 - y_1 K_{12}（\alpha_1^{new} - \alpha_1^{old}) - y_2 K_{22}（\alpha_2^{new} - \alpha_2^{old}) + b^{old} \tag{38}$

如果 $\alpha_1^{new},\alpha_2^{new}$ 同时满足 $\alpha_i^{new} < C,\space i=1,2$ ，那么 $b_1^{new} = b_2^{new}$ 。
如果 $\alpha_1^{new},\alpha_2^{new}$ 是0或者C，那么 $b_1^{new} , b_2^{new}$ 以及他们之间的数都是符合KKT条件的阈值，这时选择它们的中点作为 $b^{new}$

综上可得：
$b^{new} = \dfrac{b_1^{new} + b_2^{new}}{2} \tag{39}$

差值 $E_i$ 更新

在每次完成两个变量的优化之后，还必须更新对应的 $E_i$ 值，并将他们保存在列表中。 $E_i$ 值的更新要用到 $b^{new}$ 值，以及所有支持向量对应的 $\alpha_j$ ：
$E_i^{new} = \sum_S y_j \alpha_j K(x_i,x_j) + b^{new} - y_i \tag{40}$

S是所有支持向量 $x_j$ 的集合。非支持向量的E值为0。

看了很多博客，其实统计学习方法里面的过程已经很完整，对其中一些过程做了补充，别看在求解时用了很多计算公式，其实里面没有很深的知识，就是变换多。

2、变量的选择方法

SMO算法在每个子问题中选择两个变量优化，其中至少一个变量是违反KKT条件的。

（1）第1个变量的选择

SMO称选择第1个变量的过程为外层循环。外层循环在训练样本中选取违反KKT条件最严重的样本点，并将其对应的变量作为第1个变量。具体的，检验训练样本点 $x_i,y_i)$ 是否满足KKT条件，即：
$\begin{aligned} \alpha_i = 0 & \iff y_i g(x_i) \geq 1 \\ 0 < \alpha_i < C & \iff y_i g(x_i) = 1 \\ \alpha_i = C & \iff y_i g(x_i) \leq 1 \\ \end{aligned}$

$g(x_i) = \sum_{j=1}^N \alpha_j y_j K(x_i,x_j) + b$

该检验是在精度 $\epsilon$ 范围内进行的，即在精度 $\epsilon$ 范围内的点不选用。

在检验过程中，外层循环首先遍历所有满足条件 $\alpha_i < C$ 的样本点，即在间隔边界上的支持向量点，检验它们是否满足KKT条件。
如果这些点都满足KKT条件，那么就遍历整个训练集，检验它们是否满足KKT条件。

（2）第2个变量的选择

SMO称选择第2个变量的过程为内层循环。假设在外层循环中已经找到第1个变量 $\alpha_1$ ，现在要在内层循环中找到第2个变量 $\alpha_2$ 。第2个变量选择的标准是希望能使 $\alpha_2$ 有足够大的变化。

由式（35a）（35）可知， $\alpha_2^{new}$ 是依赖于 $E_1 - E_2|$ 的，为了加快计算速度，一种简单的做法是选择 $\alpha_2$ ，使其对应的 $E_1 - E_2|$ 最大。因为 $\alpha_1$ 已定， $E_1$ 也确定了。

如果 $E_1$ 是正的，那么选择最小的 $E_i$ 作为 $E_2$ ；
如果 $E_1$ 是负的，那么选择最大的 $E_i$ 作为 $E_2$ ；
为了节省计算时间，将所有 $E_i$ 值保存在一个列表中。

在特殊情况下，如果内层循环通过以上方法选择的 $\alpha_2$ 不能使目标函数有足够的下降，那么采用以下启发式规则继续选择 $\alpha_2$ 。

遍历在间隔边界上的支持向量点，依次将其对应的变量作为 $\alpha_2$ 试用，直到目标函数有足够的下降；
若找不到合适的 $\alpha_2$ ，那么遍历训练数据集；
若仍找不到合适的 $\alpha_2$ ，则放弃第1个 $\alpha_1$ ，再通过外层循环寻找另外的 $\alpha_1$ 。

3、SMO算法

输入：训练数据集 $\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$ ，其中， $x_i \in {\bf R}^n,\space y_i \in \{-1,+1\},\space i =1,2,\cdots,N$ ，精度 $\epsilon$ ；

输出：近似解 $\hat{\alpha}$ ，由于给算法设置了一个精度 $\epsilon$ ，所以最终求得是近似解。

（1）取初值 $\alpha^{(0)} = 0$ ，令 $k = 0$ ；

（2）选取优化变量 $\alpha_1^{(k)},\alpha_2^{(k)}$ ，解析求解两个变量的最优化问题（29）（31），求得最优解 $\alpha_1^{(k+1)},\alpha_2^{(k+1)}$ ，更新 $\alpha$ 为 $\alpha^{(k+1)}$ ；

（3）若在精度 $\epsilon$ 范围内满足停机条件：
$\sum_{i=1}^N \alpha_i y_i = 0$
$\leq \alpha_i \leq C,\space i=1,2,\cdots,N$
$y_i \cdot g(x_i) = \begin{cases} \geq 1, & \{x_i|\alpha_i = 0\} \\[2ex] = 1, & \{x_i|0 < \alpha_i < C \} \\[2ex] \leq 1, & \{x_i|\alpha_i = C\} \end{cases}$

$g(x_i) = \sum_{j=1}^N \alpha_j y_j K(x_i,x_j) + b$

则转（4）；否则令 $k = k + 1$ ，转（2）；

（4）取 $\hat{\alpha} = \alpha^{(k+1)}$ 。

对于深入研究支持向量机之前，看了一眼书，这个算法占的篇幅最大，公式最多，难度应该不一般。研究下来确实不一般，花费六天，每天至少5小时，最终下来感觉还算是比较了解了。其实支持向量机的模型和策略都很简单，模型就是一个超平面，策略就是最大化分类间隔，解决的问题从线性可分到线性近似可分，再到非线性可分；然后就是算法，对最终最优化问题的求解，为了求解快速、少占内存，有大牛发明了SMO算法（序列最小最优算法）。

如果是想研究支持向量机可以按我上面的总结看下来绝对没问题，大致内容和李航的统计学方法一致，我对中间涉及的一些数学知识做了一定补充，这也是我这篇博客与课本差别之一，对一些难以理解的地方详细展开和知识补充。这篇总结涉及的知识点很多，若有不正确的地方还望指出，以免误导他人。

之前的学习的几个算法都是搞懂再来做总结，支持向量机知识点太多，一下全部搞懂挺难的，是知道一点就总结一点，遇到过不去的就停下来找博客，看别人的讲解，就这样把难点逐个击破，然后整个算法也就总结完了。这也相当于应用了SMO算法的思想，化整为零，逐个击破，每一个算法都是智慧的结晶。

参考资料：

$* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * *$
未完待续

Hayden112

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
07_支持向量机3_统计学习方法

文章目录五、SMO算法1、两个变量二次规划的求解方法（1）定义子问题（2）确定变量范围（3）最优求解（4）计算阈值b和差值E2、变量的选择方法（1）第1个变量的选择（2）第2个变量的选择3、SMO算法支持向量机内容特别多，为了方便阅读，分成三个部分，上接：07_支持向量机1_统计学习方法07_支持向量机2_统计学习方法。五、SMO算法KKT条件中的（k4）（k5）还没有使用过，这两个条件...
复制链接

扫一扫