SVM系列理论（十一）SMO序列最优化算法

最新推荐文章于 2023-07-08 14:41:58 发布

知了不知蝉鸣惊

最新推荐文章于 2023-07-08 14:41:58 发布

阅读量763

点赞数

分类专栏： SVM支持向量机系列理论

本文链接：https://blog.csdn.net/promisejia/article/details/81540027

版权

SVM支持向量机系列理论专栏收录该内容

11 篇文章 7 订阅

订阅专栏

支持向量机的的学习问题可以形式化为求解凸二次规划问题。求解凸二次规划问题可以借用一些凸二次规划求解工具，但这需要强大的计算能力支持。Platt提出SMO序列最小优化算法，可以高效地计算出对偶问题中最佳的拉格朗日乘子 $\alpha^*$ .

1. SMO 序列最小化算法的基本思想

SVM的对偶问题可以表示为：

$min_\alpha \ \ \ \ \frac{1}{2}\sum^{N}_{j=1} \alpha_i\alpha_jy_iy_jK(x_i \cdot x_j) - \sum^{N}_{i=1}\alpha_i$

$s.t. \ \ \ \ \sum^{N}_{i=1} \alpha_iy_i =0$

$\ \ \ \ \ \ \ \ \ \ \ \ 0 \leq\alpha_{i}^{} \leq C, i = 1,2,..., N\ \ \ \ \ \ \ \ \ (1)$

对应的KKT条件为：

$\alpha_{i}^{} = 0 \Rightarrow y_ig(x_i) \geq 1\ \ \ \ \ \ \ \ \$

$0 <\alpha_{i}^{} < C \Rightarrow y_ig(x_i) = 1\ \ \ \ \ \ \ \ \$

$\alpha_{i}^{}= C \Rightarrow y_ig(x_i) \leq 1\ \ \ \ \ \ \ \ \$

SMO算法是一种快速学习的算法，其思想是：

不断地选择两个两个变量 $\alpha_1, \alpha_2$ ，将上面（1）这个二次规划问题分解成一个只有两个变量的二次规划子问题，然后对二变量子问题进行解析求解，直到所有变量都满足KKT条件为止。由于每个子问题都有解析解，计算很快，所以很高效。

重要定理：KKT条件是最优化问题的充分必要条件。

2. 选择两个变量的方法

上面说到SMO算法的思想，那么第一步应该明确怎么选择两个变量 $\alpha_1, \alpha_2$ 。

2.1 第一个变量的选择

选择第一个变量需要选择在训练集中违反KKT条件最严重的样本点。这很容易理解，因为我们最终的目标是让所有的变量 $\alpha$ 满足KKT条件，选择违反KKT最大的作为优化对象。

一般来说，我们首先选择违反 $0 <\alpha_{i}^{} < C \Rightarrow y_ig(x_i) = 1$ 这个条件的 $\alpha$ 。
如果这些支持向量都满足KKT条件，再选择违反 $\alpha_{i}^{}= C \Rightarrow y_ig(x_i) \leq 1$ 和 $\alpha_{i}^{} = 0 \Rightarrow y_ig(x_i) \geq 1$ 的点。

2.2 第二个变量的选择

为了选择第二个变量，首先定义函数 $g(x_i) =\sum_{j=1}^{N}\alpha_jy_jK(x_j,x_i)+b$

并把预测值 $g(x_i)$ 与真实值 $y_i$ 之差记为 $E_i$ ，则

$E_i = g_i(x) - y_i = (\sum_{j=1}^{N}\alpha_jy_jK(x_j,x_i)+b)-y_i; \ \ \ \ \ \ \ i=1,2$

第二个变量 $\alpha_{2}$ 的选择标准就是是让 $|E_1-E_2|$ 有足够大的变化。

假设已经找到了 $\alpha_{1}$ ,由于 $\alpha_{1}$ 定了,所以 $E_{1}$ 也确定了。所以要想 $|E_1-E_2|$ 最大，只需要
- 在 $E_{1}$ 为正时，选择最小的 $E_{i}$ 作为 $E_{2}$ ，
- 在 $E_{1}$ 为负时，选择最大的 $E_{i}$ 作为 $E_{2}$ ，因此可以将所有的 $E_{i}$ 保存下来加快迭代。
如果上面找到的 $\alpha_{2}$ 不能让目标函数有足够的下降，可以遍历支持向量,直到目标函数有足够的足够的下降.
如果所有的支持向量做α2都不能让目标函数有足够的下降，可以跳出循环，重新选择α1

3. SMO序列最小化算法的基本步骤

现在我们知道了选择变量的方法，那么就要把原来（1）中的凸二次优化问题转化为两个变量的二次规划子问题，然后对二变量子问题进行解析求解。

第一步, 使用2中方法选取两个变量 $\alpha_1, \alpha_2$ (选取的量应该是违反KKT比较大的变量，这样优化效果好), 其他的 $\alpha_i$ 视为常量. 求解新的未经剪辑时 $\alpha_2^{new,uncut}$ .

最优化问题可以写为：

$min_\alpha \ \ \ \ W(\alpha_1,\alpha_2) = \frac{1}{2}K_{11}\alpha_1^2 + \frac{1}{2}K_{22}\alpha_2^2 + y_1y_2K_{12}\alpha_1\alpha_2 -(\alpha_1+\alpha_2) +y_1\alpha_1\sum^{N}_{j=3} \alpha_iy_iK_{i1} +y_2\alpha_2\sum^{N}_{j=3} \alpha_iy_iK_{i2}\ \ \ \ \ \ \ \ \ (2)$

$s.t. \ \ \ \ \ \ \ \alpha_1y_1+\alpha_2y_2=-\sum^{N}_{i=3} \alpha_iy_i = \xi\ \ \ \ \ \ \ \ \ (3)$

$\ \ \ \ \ \ \ \ \ \ \ \ 0\leq\alpha_i \leq C, i = 1,2 \ \ \ \ \ \ \ \ \ (4)$

如果不考虑 $0\leq\alpha_i \leq C, i = 1,2 \$ 的约束条件下，利用（3）代入（2），得到 $\alpha_2$ 的单变量问题。

再对 W 求导并令其为 0，可以求到一个 $\alpha_2$ 解。我们称这个解是未经剪辑时的新解 $\alpha_2^{new,uncut}$ ：

$\alpha_2^{new,uncut} = \alpha_2^{old} + \frac{y_2(E_1-E_2)}{\eta }\ \ \ \ \ \ \ \ \ (5)$

注：

$g(x_i) =\sum_{j=1}^{N}\alpha_jy_jK(x_j,x_i)+b \ \ \ \ \ \ \ \ \ (6)$

$\eta = K_{11}+K_{22}-2K_{12}=||\phi(x_1) - \phi(x_2)||^2\ \ \ \ \ \ \ \ \ (7)$

$E_i = g(x_i) - y_i = (\sum_{j=1}^{N}\alpha_jy_jK(x_j,x_i)+b)-y_i; \ \ \ \ \ \ \ i=1,2\ \ \ \ \ \ \ \ \ (8)$

第二步，按照下式求出剪辑后的 $\alpha_2^{new}$ ,进而由求出 $\alpha_1^{new}$

实际上，我们还必须考虑约束条件 $0\leq\alpha_i \leq C, i = 1,2 \$ ，因此考虑后得到：

$\alpha_2^{new}= \begin{cases} H& {L \leq \alpha_2^{new,unc} > H}\\ \alpha_2^{new,unc}& {L \leq \alpha_2^{new,unc} \leq H}\\ L& {\alpha_2^{new,unc} < L} \end{cases}\ \ \ \ \ \ \ \ \ (9)$

$\alpha_1^{new}= \alpha_1^{old} + y_1y_2(\alpha_2^{old}-\alpha_2^{new })\ \ \ \ \ \ \ \ \ (10)$

注：

具体推导参考李航《统计学习方法》或戳

经历了前两步，我们已经或得了新的 $\alpha_1, \alpha_2$ 的值，那么什么时候终止呢？这需要在设定的一个精度e下检验终止条件。

第三步，计算 $b^{new}$ 和 $E_i^{new}$ ，方便下次选择变量.

在每次完成两个变量的优化之后，需要重新计算阈值 $b^{new}$ 和差值 $E_i^{new}$

$b_1^{new} = -E_1 -y_1K_{11}(\alpha_{1}^{new} - \alpha_{1}^{old}) -y_2K_{21}(\alpha_{2}^{new} - \alpha_{2}^{old}) + b^{old}\ \ \ \ \ \ \ \ \ (11)$

$b_2^{new} = -E_2 -y_1K_{12}(\alpha_{1}^{new} - \alpha_{1}^{old}) -y_2K_{22}(\alpha_{2}^{new} - \alpha_{2}^{old}) + b^{old}\ \ \ \ \ \ \ \ \ (12)$

$b^{new} = \frac{b_1^{new} + b_2^{new}}{2}\ \ \ \ \ \ \ \ \ (13)$

$E_i^{new} = \sum\limits_{S}y_j\alpha_jK(x_i,x_j) + b^{new} -y_i\ \ \ \ \ \ \ \ \ (14)$

S指所有的支持向量集合。
注：

具体推导参考李航《统计学习方法》或戳

第四步，在精度 $e$ 范围内检查是否满足如下的终止条件,如果满足则结束，返回最佳解 $\alpha_1^{new},\alpha_1^{new}$ ,否则转到第二步

$\sum\limits_{i=1}^{N}\alpha_iy_i = 0\ \ \ \ \ \ \ \ \ (15)$

$0 \leq \alpha_i \leq C, i =1,2...N\ \ \ \ \ \ \ \ \ (16)$

$\alpha_{i}^{new} = 0 \Rightarrow y_ig(x_i) \geq 1\ \ \ \ \ \ \ \ \ (17)$

$0 <\alpha_{i}^{new} < C \Rightarrow y_ig(x_i) = 1\ \ \ \ \ \ \ \ \ (18)$

$\alpha_{i}^{new}= C \Rightarrow y_ig(x_i) \leq 1\ \ \ \ \ \ \ \ \ (19)$

知了不知蝉鸣惊

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
SVM系列理论（十一）SMO序列最优化算法

1. SMO 序列最小化算法的基本思想2. 选择两个变量的方法2.1 第一个变量的选择2.2 第二个变量的选择3. SMO序列最小化算法的基本步骤支持向量机的的学习问题可以形式化为求解凸二次规划问题。求解凸二次规划问题可以借用一些凸二次规划求解工具，但这需要强大的计算能力支持。Platt提出SMO序列最小优化算法，可以高效地计算出对偶问题中最佳的拉格朗日乘子...
复制链接

扫一扫