【机器学习】支持向量机（5）——SMO算法

最新推荐文章于 2023-03-23 14:08:48 发布

Day-yong

最新推荐文章于 2023-03-23 14:08:48 发布

阅读量674

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/Daycym/article/details/81330049

版权

机器学习专栏收录该内容

50 篇文章 47 订阅

订阅专栏

前言

通过前几篇博客的介绍，相信大家已经对支持向量机有了一定的了解，我们知道，支持向量机的学习问题可以形式化为求解凸二次规划问题。

$\min_\alpha \quad \frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_jK(x_i,x_j)- \sum_{i=1}^N\alpha_i \\ s.t. \quad \sum_{i=1}^N\alpha_iy_i =0 \\ 0 \leqslant \alpha_i \leqslant C,\quad i = 1,2,...,N$

其中，一个变量 $\alpha_i$ 对应一个样本点 $x_i,y_i)$ ；

这样的凸二次规划问题具有全局最优解，也有许多最优化算法可以用于求解这一问题，但是当训练数据集容量很大时，这些算法往往变得非常低效。

本篇介绍的 $S M O$ 算法（序列最小最优化算法）便是可以快速求解此问题的算法。

$S M O$ 算法

$S M O$ 算法是由 $J o h n P l a t t, 1998$ 提出，是一种启发式算法。 $S M O$ 算法是将大优化问题分解为多个小优化问题求解的，这些小优化问题往往很容易求解，并且对它们进行顺序求解的结果与将它们作为整体来说求解的结果是一样的。

$S M O$ 算法的目标是求出一系列 $\alpha$ 和 $b$ ，一旦求出这些 $\alpha$ ，就很容易计算出权重向量 $w$ 并且得到分离超平面。

$S M O$ 算法的基本思路：

如果所有变量（即拉格朗日乘子 $\alpha_i$ ）的解都满足此最优化问题的 $K K T$ 条件，那么这个最优化问题的解就得到了（因为 $K K T$ 条件是该最优化问题的充分必要条件）。

此最优化问题的 $K T T$ 条件：
$\alpha_i = 0 \Leftrightarrow y_ig(x_i) \geqslant 1 \\ 0 < \alpha_i < C \Leftrightarrow y_ig(x_i)=1 \\ \alpha_i = C \Leftrightarrow y_ig(x_i) \leqslant 1$

其中：
$g(x_i) = \sum_{j=1}^N\alpha_jy_jK(x_i,x_j)+b$

那么问题就是：如何使所有变量都满足 $K T T$ 条件呢？

先固定 $\alpha_i$ 之外的所有参数，然后求 $\alpha_i$ 上的极值。由于约束条件 $\sum_{i=1}^N\alpha_iy_i =0$ 的存在，若固定其他变量，那么 $\alpha_i$ 可由其他变量导出。

于是， $S M O$ 算法每次循环选择两个变量，固定其他变量，针对这两个变量构建一个二次规划问题，这个二次规划问题关于这两个变量的解应该更接近原始二次规划问题的解，因为这会使得原始二次规划问题的目标函数值变得更小。

小优化问题（子问题）可以通过解析方法求解，这样可以大大提高整个算法的计算速度，子问题有两个变量，一个是违背 $K K T$ 条件最严重的那一个，一个是由约束条件自动确定。如此， $S M O$ 算法将原始问题不断分解为子问题并对子问题求解，进而达到求解原问题的目的。

整个 $S M O$ 算法包括两个部分：求解两个变量二次规划的解析方法和选择变量的启发式方法。

两个变量二次规划的求解方法

不失一般性，假设选择的两个变量为 $\alpha_1,\alpha_2$ ，其他变量 $\alpha_i(i=3,4,...,N)$ 是固定的，于是上面的最优化问题的子问题就可以写为：
$\min_{\alpha_1,\alpha_2} \quad W(\alpha_1,\alpha_2) = \frac{1}{2}K_{11}\alpha_1^2+\frac{1}{2}K_{22}\alpha_2^2+y_1y_2K_{12}\alpha_1\alpha_2 \\ -(\alpha_1+\alpha_2)+y_1\alpha_1\sum_{i=3}^Ny_i\alpha_iK_{i1}+y_2\alpha_2\sum_{i=3}^Ny_i\alpha_iK_{i2} \\ s.t. \quad \alpha_1y_1+\alpha_2y_2 = - \sum_{i=3}^Ny_i\alpha_i = \varsigma \\ 0 \leqslant \alpha_i \leqslant C, \quad i=1,2$

其中， $K_{ij} = K(x_i,x_j),i,j =1,2,...,N$ ， $\varsigma$ 是常数， $y_i^2 = 1$ ，目标函数中省略了不含 $\alpha_1,\alpha_2$ 的常数项。

为了求解两个变量的二次规划问题，首先，我们先来分析约束条件，然后在约束条件下求极小。

因为只有两个变量，我们可以在二维空间表示，由约束条件：
$\leqslant \alpha_i \leqslant C, \quad i=1,2$
可画出二维空间图，如下：

这里写图片描述

由约束条件：
$\alpha_1y_1+\alpha_2y_2 = - \sum_{i=3}^Ny_i\alpha_i = \varsigma$

可用图中虚线表示，该虚线是平行于对角线的。因此要求的是目标函数在一条平行于对角线的线段（即虚线）上的最优解。

我们可以将两个变量的优化问题变为实质上的单变量的最优化问题，不妨考虑变量为 $\alpha_2$ 的最优化问题。

假设两个变量的初始可行解为 $\alpha_1^{old},\alpha_2^{old}$ ，最优解为 $\alpha_1^{new},\alpha_2^{new}$ ，并且假设在沿着约束方向未经剪辑（即未考虑不等式约束 $\leqslant \alpha_i \leqslant C$ ）时 $\alpha_2$ 的最优解为 $\alpha_2^{new,unc}$

由于 $\alpha_2^{new}$ 满足不等式约束 $\leqslant \alpha_i \leqslant C$ ，因此最优解 $\alpha_2^{new}$ 的取值范围必须满足条件：

$\leqslant \alpha_2^{new} \leqslant H$
其中，若 $y_1 \neq y_2$ ，如上图中左图，则：
$\alpha_2^{old}- \alpha_1^{old}) \\ H = min(C,C+ \alpha_2^{old}- \alpha_1^{old} )$
若 $y_1 = y_2$ ，如上图中的右图，则：
$\alpha_2^{old}+\alpha_1^{old}-C) \\ H = min(C, \alpha_2^{old}+ \alpha_1^{old} )$

下面我们先求沿着约束方向未经剪辑时 $\alpha_2$ 的最优解 $\alpha_2^{new,unc}$ ；然后再就剪辑后 $\alpha_2$ 的最优解 $\alpha_2^{new}$ 。

再求之前，我们先记：
$g(x_i) = \sum_{j=1}^N\alpha_jy_jK(x_i,x_j)+b$
令：
$E_i = g(x_i) - y_i = (\sum_{j=1}^N\alpha_jy_jK(x_i,x_j)+b)-y_i, \quad i=1,2$
当 $i = 1, 2$ 时， $E_i$ 为函数 $g (x)$ 对输入 $x_i$ 的预测值与真实输出 $y_i$ 之差。

定理：
最优化问题沿着约束方向未经剪辑时的解为：
$\alpha_2^{new,unc} = \alpha_2^{old}+\frac{y_2(E_1-E_2)}{\eta}$
其中：
$\eta = K_{11}+ K_{22}-2 K_{12}$
经剪辑后 $\alpha_2$ 的解是：
$\alpha_2^{new} = \begin{cases} H, \quad \quad \quad \quad \alpha_2^{new,unc} > H \\ \alpha_2^{new,unc}, \quad \ L \leqslant \alpha_2^{new,unc} \leqslant H \\ L, \quad \quad \quad \quad \alpha_2^{new,unc}<L \end{cases}$
由 $\alpha_2^{new}$ 求得 $\alpha_1^{new}$ 是：
$\alpha_1^{new} = \alpha_1^{old}+y_1y_2(\alpha_2^{old}-\alpha_2^{new})$

证明：
引进记号：
$v_i = \sum_{j=3}^N\alpha_jy_jK(x_i,x_j) = g(x_i) - \sum_{j=1}^2\alpha_jy_jK(x_i,x_j)-b, \quad i=1,2$
目标函数可写成：
$W(\alpha_1,\alpha_2) = \frac{1}{2}K_{11}\alpha_1^2+\frac{1}{2}K_{22}\alpha_2^2+y_1y_2K_{12}\alpha_1\alpha_2 -(\alpha_1+\alpha_2)+y_1v_1\alpha_1+y_2v_2\alpha_2$
由 $\alpha_1y_1 = \varsigma - \alpha_2y_2$ 以及 $y_i^2 =1$ ，可将 $\alpha_1$ 表示为：
$\alpha_1 = (\varsigma-y_2\alpha_2)y_1$
代入改写后的目标函数得：
$W(\alpha_1,\alpha_2) = \frac{1}{2}K_{11}(\varsigma-y_2\alpha_2)^2+\frac{1}{2}K_{22}\alpha_2^2+y_2K_{12}(\varsigma-y_2\alpha_2)\alpha_2 -(\varsigma-y_2\alpha_2)y_1-\alpha_2+v_1(\varsigma-y_2\alpha_2)+y_2v_2\alpha_2$
对 $\alpha_2$ 求偏导：
$\frac{\partial W}{\partial \alpha_2} = K_{11}\alpha_2+K_{22}\alpha_2-2K_{12}\alpha_2-K_{11}\varsigma y_2+K_{12}\varsigma y_2+y_1y_2-1-v_1y_2+y_2v_2$
另偏导数为0，得到：
$(K_{11}+K_{22}-2K_{12})\alpha_2 = y_2(y_2-y_1+\varsigma K_{11}-\varsigma K_{12}+v_1-v_2) \\ = y_2\Big[y_2-y_1+\varsigma K_{11}-\varsigma K_{12}+\Big(g(x_1) - \sum_{j=1}^2y_j\alpha_jK_{1j}-b\Big)-\Big(g(x_2) - \sum_{j=1}^2y_j\alpha_jK_{2j}-b\Big)\Big]$
将 $\varsigma = \alpha_1^{old}y_1+\alpha_2^{old}y_2$ 代入，得到：
$(K_{11}+K_{22}-2K_{12})\alpha_2^{new,unc}=y_2\Big((K_{11}+K_{22}-2K_{12})\alpha_2^{old}y_2+y_2-y_1+g(x_1)-g(x_2)\Big) \\ = (K_{11}+K_{22}-2K_{12})\alpha_2^{old}+y_2(E_1-E_2)$
将 $\eta = K_{11}+K_{22}-2K_{12}$ 代入，得到：
$\alpha_2^{new.unc} = \alpha_2^{old}+\frac{y_2(E_1-E_2)}{\eta}$
要是其满足不等式约束必须限制在 $[L, H]$ 内，从而得到 $\alpha_2^{new}$ 的表达式：
$\alpha_2^{new} = \begin{cases} H, \quad \quad \quad \quad \alpha_2^{new,unc} > H \\ \alpha_2^{new,unc}, \quad \ L \leqslant \alpha_2^{new,unc} \leqslant H \\ L, \quad \quad \quad \quad \alpha_2^{new,unc}<L \end{cases}$
由等式约束： $\alpha_1y_1+\alpha_2y_2 = \varsigma$ 得到 $\alpha_1^{new}$ 的表达式：
$\alpha_1^{new} = \alpha_1^{old}+y_1y_2(\alpha_2^{old}-\alpha_2^{new})$
至此，我们就得到了最优化问题的解：
$(\alpha_1^{new},\alpha_2^{new})$

变量的选择方法

$S M O$ 称选择第一个变量的过程为外层循环，外层循环在训练样本中选违反 $K K T$ 条件最严重的样本点，并将其对应的变量作为第一个变量。具体地，检验训练样本点 $x_i,y_i)$ 是否满足 $K K T$ 条件。

$S M O$ 称选择第二个变量的过程为内层循环。假设在外层循环中已经找到第一个变量 $\alpha_1$ ，现在要在内层循环中找第二个变量 $\alpha_2$ 。第二个变量选择的标准是希望能使 $\alpha_2$ 有足够大的变化。有前面的公式可知， $\alpha_2^{new}$ 依赖于 $E_1-E_2|$ ，一种简单的做法就是使其对应的 $E_1-E_2|$ 最大，因为 $\alpha_1$ 已定， $E_1$ 也就确定了。那么，如果 $E_1$ 为正的，那么选择最小的 $E_i$ 作为 $E_2$ ；如果 $E_1$ 为负的，那么选择最大的 $E_i$ 作为 $E_2$ 。

一般情况下，采用启发式规则选择第二个变量 $\alpha_2$ 。遍历在间隔边界上的支持向量点，依次将其对应的变量作为 $\alpha_2$ 试用，直到目标函数有足够的下降。若找不到合适的 $\alpha_2$ ，那么遍历整个训练数据集；若找不到合适的 $\alpha_2$ ，则放弃第一个 $\alpha_2$ ，再通过外层循环寻找另一个 $\alpha_1$ 。

计算阀值 $b$ 和差值 $E_i$

在每次完成两个变量的优化后，都要重新计算阀值 $b$ ，当 $\alpha_1^{new} < C$ 时，由 $K K T$ 条件可知：
$\sum_{i=1}^N\alpha_iy_iK_{i1} + b = y_1$
于是：
$b_1^{new} = y_1 - \sum_{i=3}^N\alpha_iy_iK_{i1} - \alpha_1^{new}y_1K_{11} - \alpha_2^{new}y_2K_{21}$
由前面我们定义式 $E_i$ 得：
$E_1 = \sum_{i=3}^N\alpha_iy_iK_{i1} +\alpha_1^{old}y_1K_{11} + \alpha_2^{old}y_2K_{21} + b^{old}-y_1$
根据上面式子得：
$y_1 - \sum_{i=3}^N\alpha_iy_iK_{i1} = -E_1+ \alpha_1^{old}y_1K_{11} + \alpha_2^{old}y_2K_{21} + b^{old}$
代入上面 $b_1^{new}$ 式子得：
$b_1^{new} = -E_1 - y_1K_{11}(\alpha_1^{new}-\alpha_1^{old}) - y_2K_{21}(\alpha_2^{new}-\alpha_2^{old}) + b^{old}$
同样，如果 $\alpha_2^{new} < C$ ，那么：
$b_2^{new} = -E_2 - y_1K_{12}(\alpha_1^{new}-\alpha_1^{old}) - y_2K_{22}(\alpha_2^{new}-\alpha_2^{old}) + b^{old}$

如果 $\alpha_1^{new},\alpha_2^{new}$ 同时满足 $\alpha_i^{new} < C, i=1,2$ ，那么 $b_1^{new} = b_2^{new}$ ；
如果 $\alpha_1^{new},\alpha_2^{new}$ 是 $0$ 或者 $C$ ，那么 $b_1^{new} ，b_2^{new}$ 以及他们之前的数都满足 $K K T$ 条件的阀值，选择他们的中点作为 $b^{new}$ ，即：
$b^{new} = \frac{b_1^{new} + b_2^{new}}{2}$

在每次计算两个变量的优化之后，还必须更新对应的 $E_i$ 值，并保存在列表中。 $E_i$ 值的更新需要用到 $b^{new}$ 值，以及所有支持向量对应的 $\alpha_j$ ：
$E_i^{new} = \sum_Sy_j\alpha_jK(x_i,y_j)+b^{new}-y_i$
其中， $S$ 是所有支持向量 $x_j$ 的集合。

至此 $S M O$ 算法可描述为：

输入：训练数据集
$T = \{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ，其中， $x_i \in \mathcal{X} = R^n,y_i \in \mathcal{Y} = \{-1,+1\},i =1,2,...,N$ ，精度为$\varepsilon $；输出：近似解$ \alpha$
（1）取初值 $\alpha^{(0)} = 0$ ，令 $k = 0$ ；
（2）选取优化变量 $\alpha_1^{(k)},\alpha_2^{(k)}$ ，解析求解两个变量的最优化问题，求得最优解 $\alpha_1^{(k+1)},\alpha_1^{(k+1)}$ ；
（3）若在进度 $\varepsilon$ 范围内满足停止条件：
$\sum_{i=1}^Na_iy_i = 0\\ 0 \leqslant \alpha_i \leqslant C, \quad i = 1,2,..,N \\ y_i \cdot g(x_i) = \begin{cases} \geqslant 1, \quad \{x_i | \alpha_i =0 \} \\ = 1,\quad \{x_i |0 < \alpha_i <C \} \\ \leqslant 1,\quad \{x_i | \alpha_i =C \} \\ \end{cases}$
其中，
$g(x_i) = \sum_{j=1}^N\alpha_jy_jK(x_i,x_j)+b$
则转（4）；否则令 $k = k + 1$ ，转（2）；
（4）取 $\alpha = \alpha^{(k+1)}$ 。