序列最小最优化算法SMO：求解支持向量机

最新推荐文章于 2023-03-23 14:08:48 发布

一只干巴巴的海绵

最新推荐文章于 2023-03-23 14:08:48 发布

阅读量360

点赞数

分类专栏：数值优化

本文链接：https://blog.csdn.net/Hanx09/article/details/105435427

版权

数值优化专栏收录该内容

4 篇文章 0 订阅

订阅专栏

序列最小最优化算法

支持向量机的学习问题可以转化为求解凸二次规划问题
$\begin{aligned} &\min_\alpha\quad \frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_jK(x_i,x_j)-\sum_{i=1}^n\alpha_i\\ &s.t. \quad \sum_{i=1}^n\alpha_iy_i=0,\quad 0\leq\alpha_i\leq C,i=1,2,...,n \end{aligned}\quad\quad(1)$

这样的凸二次规划问题具有全局最优解，下面介绍求解该问题的序列最小最优化（sequential minimal optimization, SMO）算法。

SMO算法是一种启发式算法，其基本思想是：如果所有变量的解都满足此最优化问题的KKT条件，那么这个最优化问题的解就得到了；否则，选择两个变量，固定其他变量，针对这两个变量求解这个二次规划问题(2)（不妨设选取的变量为 $\alpha_1,\alpha_2$ ），称之为原始问题(1)的子问题，用子问题的解更新原来的解，更新后的解应更接近二次规划问题的解，因为它使得原始问题的目标函数值变得更小。

$\begin{aligned} \min_{\alpha_1,\alpha_2}\quad W(\alpha_1,\alpha_2)&=\frac{1}{2}K_{11}\alpha_1^2+\frac{1}{2}K_{22}\alpha_2^2+y_1y_2K_{12}\alpha_1\alpha_2-(\alpha_1+\alpha_2)\\ &+y_1\alpha_1\sum_{i=3}^ny_i\alpha_iK_{i1}+y_2\alpha_2\sum_{i=3}^ny_i\alpha_iK_{i2}\\ s.t.\quad &\alpha_1y_1+\alpha_2y_2=-\sum_{i=3}^ny_i\alpha_i=\zeta\\ &0\leq \alpha_i\leq C,\quad i=1,2 \end{aligned}\quad\quad(2)$

其中 $K_{ij}=K(x_i,x_j),i,j=1,2,...,n$ ， $\zeta$ 为常数。

整个SMO算法包括两部分：求解两个变量二次规划的解析方法和选择变量的启发式方法。

两个变量二次规划的求解方法

现要求解优化问题(2)。由于只有两个变量 $(\alpha_1,\alpha_2)$ ，约束可以用二维空间中的图形表示，

二元变量
不等式约束条件将 $(\alpha_1,\alpha_2)$ 限制在矩形 $[0,C]\times[0,C]$ 内，等式约束条件将 $(\alpha_1,\alpha_2)$ 限制在平行于矩形 $[0,C]\times[0,C]$ 的对角线的直线上，因此要求的是目标函数在一条平行于矩形对角线的线段上的最优值。这使得两个变量的最优化问题成为实质上的单变量的最优化问题，不妨考虑为变量 $\alpha_2$ 的最优化问题（ $\alpha_1$ 可根据约束条件由 $\alpha_2$ 求得）。

假设问题(2)的初始可行解为 $\alpha_1^{old}, \alpha_2^{old}$ ，最优解为 $\alpha_1^{onew}, \alpha_2^{new}$ ，并且假设只考虑等式约束、不考虑不等式约束时 $\alpha_2$ 的最优解为 $\alpha_2^{new,unc}$ 。

$\alpha_1^{old}, \alpha_2^{old}$ 为可行解：

当 $y_1\neq y_2$ 时， $\alpha_1^{old}-\alpha_2^{old}=\zeta$ ；当 $y_1=y_2$ 时， $\alpha_1^{old}+\alpha_2^{old}=\zeta$

引进记号：
$g(x)=\sum_{i=1}^n\alpha_iy_iK(x_i,x)+b$

$E_i=g(x_i)-y_i=\left(\sum_{j=1}^n\alpha_jy_jK(x_j,x_i)+b\right)-y_i,\quad i=1,2$

$v_i=\sum_{j=3}^n\alpha_jy_jK(x_i,x_j)=g(x_i)-\sum_{j=1}^2\alpha_jy_jK(x_i,x_j)-b,\quad i=1,2$

则目标函数可写为：
$\begin{aligned} W(\alpha_1,\alpha_2)&=\frac{1}{2}K_{11}\alpha_1^2+\frac{1}{2}K_{22}\alpha_2^2+y_1y_2K_{12}\alpha_1\alpha_2-(\alpha_1+\alpha_2)\\ &+y_1\alpha_1\sum_{i=3}^ny_i\alpha_iK_{i1}+y_2\alpha_2\sum_{i=3}^ny_i\alpha_iK_{i2}\\ &=\frac{1}{2}K_{11}\alpha_1^2+\frac{1}{2}K_{22}\alpha_2^2+y_1y_2K_{12}\alpha_1\alpha_2-(\alpha_1+\alpha_2)+y_1\alpha_1v_1+y_2\alpha_2v_2 \end{aligned}$

由 $\alpha_1y_1=\zeta-\alpha_2y_2$ 及 $y_1^2=y_2^2=1$ ，可写
$\alpha_1=(\zeta-y_2\alpha_2)y_1$

带入上式得到只含 $\alpha_2$ 的目标函数
$\begin{aligned} W(\alpha_2)&=\frac{1}{2}K_{11}(\zeta-y_2\alpha_2)^2+\frac{1}{2}K_{22}\alpha_2^2+y_2K_{12}(\zeta-y_2\alpha_2)\alpha_2\\ &-(\zeta-y_2\alpha_2)y_1-\alpha_2+(\zeta-y_2\alpha_2)v_1+y_2\alpha_2v_2 \end{aligned}$

关于 $\alpha_2$ 求导数，
$\begin{aligned} \frac{\partial W(\alpha_2)}{\partial \alpha_2}&=-y_2K_{11}(\zeta-y_2\alpha_2)+K_{22}\alpha_2+y_2K_{12}(\zeta-y_2\alpha_2)-K_{12}\alpha_2+y_1y_2-1-y_2v_1+y_2v_2\\ &=K_{11}\alpha_2+K_{22}\alpha_2-2K_{12}\alpha_2-K_{11}\zeta y_2+K_{12}\zeta y_2+y_1y_2-1-y_2v_1+y_2v_2 \end{aligned}$

令其等于0，
$\begin{aligned} (K_{11}+K_{22}-2K_{12})\alpha_2&=y_2(y_2-y_1+\zeta K_{11}-\zeta K_{12}+v_1-v_2)\\ &=y_2\left[y_2-y_1+\zeta K_{11}-\zeta K_{12}+\left(g(x_1)-\sum_{j=1}^2y_j\alpha_jK_{1j}-b\right)-\left(g(x_2)-\sum_{j=1}^2y_j\alpha_jK_{2j}-b\right)\right] \end{aligned}$

将 $\zeta=\alpha_1^{old}y_1+\alpha_2^{old}y_2$ 带入，得到
$\begin{aligned} (K_{11}+K_{22}-2K_{12})\alpha_2&=y_2((K_{11}+K_{22}-2K_{12})\alpha_2^{old}y_2+y_2-y_1+g(x_1)-g(x_2))\\ &=(K_{11}+K_{22}-2K_{12})\alpha_2^{old}+y_2(E_1-E_2) \end{aligned}$

令 $\eta=K_{11}+K_{22}-2K_{12}$ ，得
$\alpha_2^{new,unc}=\alpha_2^{old}+\frac{y_2(E_1-E_2)}{\eta }\quad\quad(3)$

$\alpha_2^{new}$ 既满足等式约束 $\alpha_1y_1+\alpha_2y_2=k$ ，又满足不等式约束 $0\leq \alpha_2\leq C$ ，综合起来有：
$L\leq \alpha_2^{new}\leq H\quad\quad(4)$
其中 $L$ 与 $H$ 是 $\alpha_2^{new}$ 所在的对角线段点的界：

当 $y_1\neq y_2$ 时， $L=\max(0,\alpha_2^{old}-\alpha_1^{old}),\quad H=\min(C,C+\alpha_2^{old}-\alpha_1^{old})$
当 $y_1= y_2$ 时， $L=\max(0,\alpha_2^{old}+\alpha_1^{old}-C),\quad H=\min(C,\alpha_2^{old}+\alpha_1^{old})$

结合(3)(4)有，
$\alpha_2^{new}=\begin{cases} H,\quad\quad\quad\quad \alpha_2^{new,unc}>H\\ \alpha_2^{new,unc},\quad L\leq \alpha_2^{new,unc}\leq H\\ L,\quad \quad\quad\quad \alpha_2^{new,unc}<L \end{cases}\quad\quad(5)$

由 $\alpha_2^{new}$ 求得 $\alpha_1^{new}$ 是
$\alpha_1^{new}=\alpha_1^{old}+y_1y_2(\alpha_2^{old}-\alpha_2^{new})\quad\quad(6)$

变量的选择方法

SMO算法在每个子问题中选择两个变量优化，其中至少一个变量是违反KKT条件的。

1.第一个变量的选择

SMO呈选择第一个变量的过程为外层循环。

外层循环在训练样本中选取违反KKT条件最严重的样本点，并将其对应的变量作为第1个变量。回忆在支持向量机中由KKT条件推得的命题，

$0<\alpha^*<C\Longrightarrow y_ig(x_i)=1$
$\alpha^*=0\Longrightarrow y_ig(x_i)\geq1$
$\alpha^*=C\Longrightarrow y_ig(x_i)\leq1$

其中 $g(x_i)=\sum_{j=1}^n\alpha^*_jy_jK(x_j, x_i)+b^*$ 。

外层循环首先遍历所有满足条件 $0<\alpha^*<C$ 的样本点，也就是此时的支持向量，检查它们是否满足 $y_ig(x_i)=1$ ，如果这些支持向量均满足，再找违反另外两个命题的样本点。

2.第二个变量的选择

SMO呈选择第一个变量的过程为外层循环。

假设再外层循环中已经找到第一个变量 $\alpha_1$ ，现要在内层循环中找到第二个变量 $\alpha_2$ 。第二个变量的选择标准是希望能使 $\alpha_2$ 有足够大的变化。

由(3)式知， $\alpha_2^{new}$ 是依赖于 $E_1-E_2|$ 的，为了加快计算速度，一种简单的做法是选择 $\alpha_2$ ，使其对应的 $E_1-E_2|$ 最大。因为 $\alpha_1$ 已定， $E_1$ 也确定了。如果 $E_1$ 是正的，则选择最小的 $E_i$ 作为 $E_2$ ，如果 $E_1$ 是负的，则选择最大的 $E_i$ 作为 $E_2$ 。为了节省计算时间，将所有 $E_1$ 值保存在一个列表中。

在特殊情况下，如果内层循环通过以上方式找到的 $\alpha_2$ 不能让目标函数有足够的下降，则采用以下启发式规则继续选择 $\alpha_2$ ，遍历间隔边界上的支持向量点，依次将其对应的变量作为 $\alpha_2$ 试用，直到目标函数有足够的下降。若找不到合适的 $\alpha_2$ ，那么遍历训练数据集，如果仍然找不到合适的 $\alpha_2$ ，则放弃之前选的 $\alpha_1$ ，再通过外层循环寻求另外的 $\alpha_1$ 。

3. 计算阈值 $b$ 和差值 $E_i$

在每次完成两个变量的优化后，都要重新计算阈值 $b$ 。
当 $0<\alpha_1^{new}<C$ 时，有 $y_1g(x_1)=1$ ，即
$\sum_{i=1}^n\alpha_iy_iK_{i1}+b=y_1$
于是
$b_1^{new}=y_1-\sum_{i=3}^n\alpha_iy_iK_{i1}-\alpha_1^{new}y_1K_{11}-\alpha_2^{new}y_2K_{21}$

$E_1=g(x_1)-y_1=\sum_{i=3}^n\alpha_iy_iK_{i1}+\alpha_1^{old}y_1K_{11}+\alpha_2^{old}y_2K_{21}+b^{old}-y_1$

由 $E_1$ 表达式，
$y_1-\sum_{i=3}^n\alpha_iy_iK_{i1}=-E_1+\alpha_1^{old}y_1K_{11}+\alpha_2^{old}y_2K_{21}+b^{old}$

带入 $b_1^{new}$ 表达式，
$b_1^{new}=-E_1-y_1K_{11}(\alpha_1^{new}-\alpha_1^{old})-y_2K_{21})(\alpha_2^{new}-\alpha_2^{old})+b^{old}$

同样，如果 $0<\alpha_2^{new}<C$ ，有
$b_2^{new}=-E_2-y_1K_{11}(\alpha_1^{new}-\alpha_1^{old})-y_2K_{21})(\alpha_2^{new}-\alpha_2^{old})+b^{old}$

如果 $\alpha_1^{new}$ ， $\alpha_2^{new}$ 同时满足条件 $0<\alpha_i^{new}<C,i=1,2$ ，那么 $b_1^{new}=b_2^{new}$ 。

如果 $\alpha_1^{new}$ ， $\alpha_2^{new}$ 是0或C，则 $b_1^{new}$ 和 $b_2^{new}$ 以及它们之间的数都是符合KKT条件的阈值，这是选择它们的中点作为 $b^{new}$ 。

在每次完成两个变量的优化之后，还必须更新对应的 $E_i$ 值，并将它们保存在列表中。 $E_i$ 值的更新要用到 $b^{new}$ 值，及所有支持向量对应的 $\alpha_j$ ：
$E_i^{new}=\sum_{S}y_j\alpha_jK(x_i,x_j)+b^{new}-y_i$

其中， $S$ 是所有支持向量 $x_j$ 的集合。

SMO算法

输入：训练数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_n,y_n)\}$ ，其中 $x_i\in\mathcal{X}=\mathbb{R}^n,y_i\in\mathcal{Y}=\{+1,-1\},i=1,2,...,n$ ，精度 $\epsilon$
输出：近似解 $\hat{\alpha}$

取初值 $\alpha^{(0)}=0$ ，令 $k = 0$ ；
选取优化变量 $\alpha_1^{(k)},\alpha_2^{(k)}$ ，解析求解两个变量的最优化问题，
$\begin{aligned} \min_{\alpha_1,\alpha_2}\quad &W(\alpha_1,\alpha_2)=\frac{1}{2}K_{11}\alpha_1^2+\frac{1}{2}K_{22}\alpha_2^2+y_1y_2K_{12}\alpha_1\alpha_2-(\alpha_1+\alpha_2)\\ &+y_1\alpha_1\sum_{i=3}^ny_i\alpha_iK_{i1}+y_2\alpha_2\sum_{i=3}^ny_i\alpha_iK_{i2}\\ s.t.\quad &\alpha_1y_1+\alpha_2y_2=-\sum_{i=3}^ny_i\alpha_i=\zeta\\ &0\leq \alpha_i\leq C,\quad i=1,2 \end{aligned}$

求得最优解 $\alpha_1^{(k+1)},\alpha_2^{(k+1)}$ ，更新 $\alpha$ 为 $\alpha^{(k+1)}$ ；
3. 若在精度 $\epsilon$ 范围内满足停止条件
$\sum_{i=1}^n\alpha_iy_i=0,\quad 0\leq\alpha_i\leq C,i=1,2,...,n$

$y_i\cdot g(x_i)=\begin{cases} \geq1,\quad \{x_i|\alpha_i=0\}\\ =1,\quad\{x_i|0<\alpha_i<C\}\\ \leq1,\quad\{x_i|\alpha_i=C\} \end{cases}$
其中，
$g(x_i)=\sum_{j=1}^n\alpha_jy_jK(x_j,x_i)+b$
则转4；否则令 $k = k + 1$ ，转2.
4. 取 $\hat{\alpha}=\alpha^{(k+1)}$

参考：
统计学习方法——李航

一只干巴巴的海绵

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
序列最小最优化算法SMO：求解支持向量机

序列最小最优化算法支持向量机的学习问题可以转化为求解凸二次规划问题min⁡α12∑i=1n∑j=1nαiαjyiyjK(xi,xj)−∑i=1nαis.t.∑i=1nαiyi=0,0≤αi≤C,i=1,2,...,n(1)\begin{aligned}&\min_\alpha\quad \frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alp...
复制链接

扫一扫

专栏目录