SMO算法原理

最新推荐文章于 2022-01-14 23:52:56 发布

Jeff-Chow000

最新推荐文章于 2022-01-14 23:52:56 发布

阅读量680

点赞数 2

文章标签：机器学习

本文链接：https://blog.csdn.net/u014611178/article/details/109167647

版权

SMO算法原理

在前面的算法推导过程中，都遇到了以下的优化问题：
$\begin{aligned} \min_{\boldsymbol{\alpha}} \frac{1}{2} &\sum_{i=1}^N \sum_{j=1}^N \alpha_i \alpha_j y_i y_j \kappa(\mathbf{x}_i,\mathbf{x}_j) - \sum_{i=1}^N \alpha_i \\ s.t. \quad &\sum_{i=1}^N \alpha_i y_i = 0 \\ &0 \le \alpha_i \le C, \quad i=1, 2,\cdots,N \\ \end{aligned}$
我们需要求出目标函数极小化对应的参数 $N$ 维向量 $\boldsymbol{\alpha}^*$ 。但这个优化式比较复杂，很难直接优化，一般采用启发式方法——SMO算法求解。

SMO算法基本思想

SMO每次只优化两个变量，而将其他变量视为常数。

例如，认为 $\alpha_1$ 和 $\alpha_2$ 是变量， $\alpha_3,\alpha_4,\cdots,\alpha_N$ 都是常量，那么常量都可以从目标函数中去除，优化问题变成
$\begin{aligned} \min_{\alpha_i,\alpha_2} \quad \frac{1}{2} K_{11} \alpha_1^2 + \frac{1}{2} K_{22} \alpha_2^2 +& y_1 y_2 K_{12} \alpha_1 \alpha_2 - (\alpha_1 + \alpha_2) + y_1 \alpha_1 \sum_{i=3}^N y_i \alpha_i K_{i1} + y_2 \alpha_2 \sum_{i=3}^N y_i \alpha_i K_{i2} \\ s.t. \quad &\alpha_1 y_1 + \alpha_2 y_2 = -\sum_{i=3}^N \alpha_i y_i = \varsigma \\ &0 \le \alpha_i \le C, \quad i=1, 2,\cdots,N \\ \end{aligned}$
其中 $K_{ij}=\kappa(\mathbf{x}_i,\mathbf{x}_j)$ 。由于 $y_1^2 = 1,y_2^2 = 1$ ，所以目标函数里没有写上。

SMO算法目标函数的优化

首先分析约束条件
$\alpha_1 y_1 + \alpha_2 y_2 = \varsigma \\ 0 \le \alpha_i \le C, \quad i=1, 2$
由于 $y_1,y_2$ 的取值只可能为1或-1，那么 $\alpha_1 y_1 + \alpha_2 y_2 = \varsigma$ 的形式有4种：
$\begin{aligned} &\alpha_1 + \alpha_2 = \varsigma \\ &\alpha_1 + \alpha_2 = -\varsigma \\ &\alpha_1 - \alpha_2 = \varsigma \\ &\alpha_1 - \alpha_2 = -\varsigma \end{aligned}$
加上 $\le \alpha_1 \le C, 0 \le \alpha_2 \le C$ 的限制，使得 $\alpha_1, \alpha_2$ 取值只能在 $\times [0,C]$ 的盒子内。

在这里插入图片描述
如上图所示， $\alpha_1, \alpha_2$ 被限制在盒子里的一条线段上，其中一个变量可以被另一个变量表示，所以两个变量的优化问题变成了一个变量的优化问题，不妨考虑为变量 $\alpha_2$ 的最优化问题。

我们采用的是启发式迭代法，假设上一轮迭代的解是 $\alpha_1^{old}, \alpha_2^{old}$ ，不受盒子约束得到的解是 $\alpha_2^{new,unc}$ ，经过盒子约束裁剪后得到的本轮迭代解是 $\alpha_1^{new}, \alpha_2^{new}$ 。

$\alpha_2^{new}$ 必须满足上图盒子内的线段约束，假设 $L$ 和 $H$ 分别是上图中 $\alpha_2^{new}$ 的下边界和上边界，有
$\le \alpha_2^{new} \le H$

对于 $y_1 \ne y_2$ ，若 $\varsigma \gt 0$ ， $\le \alpha_2^{new} \le C - \varsigma$ ；若 $\varsigma \lt 0$ ， $-\varsigma \le \alpha_2^{new} \le C$ 。那么
$\max(0, -\varsigma), \quad H = \min(C, C - \varsigma)$
代入 $\varsigma = \alpha_1^{old} - \alpha_2^{old}$ 有
$\max(0, \alpha_2^{old} - \alpha_1^{old}), \quad H = \min(C, C + \alpha_2^{old} - \alpha_1^{old})$