对SVM的推导和编码实践（二）SMO算法的推导

最新推荐文章于 2022-10-15 15:02:20 发布

小9

最新推荐文章于 2022-10-15 15:02:20 发布

阅读量914

点赞数 1

分类专栏： ----------大数据挖掘和机器学习---------- ++机器学习文章标签： SVM smo

本文链接：https://blog.csdn.net/zhengwei223/article/details/79139226

版权

本文详细介绍了SMO（Sequential Minimal Optimization）算法，包括目标函数和约束条件、算法基本思路和两个变量的二次规划求解方法。SMO通过选择两个拉格朗日乘数进行优化，解决SVM的二次规划问题，避免使用矩阵存储和数值优化，适合大规模数据集。文章还阐述了如何处理拉格朗日乘数的修剪问题以及b的更新，并提供了算法的迭代公式总结。

摘要由CSDN通过智能技术生成

目标函数和约束条件

m i n α 1 2 \sum i, j = 1 N α i α j y i y j < x i, x j > - \sum i = 1 N α i s . t ., \sum i = 1 N α i y i = 0 0 \leq α i \leq C (13)

$\underset{\alpha }{min}\frac{1}{2}\sum_{i,j=1}^{N}\alpha _i\alpha _jy_iy_j<x_i,x_j>-\sum_{i=1}^{N}\alpha _i\\ s.t.,\sum_{i=1}^{N}\alpha _iy_i=0\\ 0\leq \alpha _i\leq C \tag{13}$

SMO简介

SMO算法的目标是求出一系列alpha和b，一旦求出了这些alpha和b，就很容易计算出权重向量w并得到分隔超平面。

SMO算法的工作原理是：每次循环中选择两个alpha进行优化处理。一旦找到一对合适的alpha，那么就增大其中一个同时减小另一个。这里所谓的“合适”就是指两个alpha必须要符合一定的条件，条件之一就是这两个alpha必须要在间隔边界之外，而其第二个条件则是这两个alpha还没有进行过区间化处理或者不在边界上。

Platt SMO算法中的外循环确定要优化的最佳alpha对。而简化版却会跳过这一部分，首先在数据集上遍历每一个alpha，然后在剩下的alpha集合中随机选择另一个alpha，从而构建alpha对。这里有一点相当重要，就是我们要同时改变两个alpha。之所以这样做是因为我们有一个约束条件：
$\sum_{i=1}^{N}\alpha _iy_i=0 \tag{14}$
由于改变一个alpha可能会导致该约束条件失效，因此我们总是同时改变两个alpha。

SMO是一个可以快速解决SVM QP问题而不使用矩阵存储空间和数值优化步的简单算法。SMO使用Qsuna的理论分解QP问题以确保收敛。

SMO在每一步选择尽可能小的优化问题。对标准的SVM QP问题，最小的优化问题涉及到两个拉格朗日乘数，因为拉格朗日乘数必须遵循一个线性等式约束。在每一步SMO选择两个乘数一起优化，寻找最优值，更新SVM以体现这些新的最优值。

SMO的优势体现于解那两个乘数的最优值的时候可以直接计算解析解而不是通过数值优化。此外，SMO不需要额外的空间存储矩阵，因此非常大规模的SVM训练问题也可以装进一台普通的个人电脑的内存里。因为没有涉及到矩阵算法，SMO算法不受数值精度问题的影响。

SMO由两部分组成：
1、解那两个拉格朗日乘数的解析解
2、如何选择那两个拉格朗日乘数进行优化的启发式算法

SMO的基本思路

确保自己理解思路，觉得《统计学习方法》里面这段话很重要，于是抄录如下：

SMO算法是一种启发式算法，其基本思路是：如果所有变量的解都满足此优化问题的KKT条件，那么这个最优化问题的解就得到了。因为KKT条件是该最优化问题的充分必要条件。否则，选择两个变量，固定其他变量，针对这两个变量构建一个二次规划问题。这个二次规划问题关于这两个变量的解应该更接近原始二次规划问题的解，因为这会使得原始二次规划问题的目标函数的值变得更小。重要的是，这时子问题可以通过解析方法求解（注：求导什么的）。这样就可以大大提高整个算法的计算速度。子问题有两个变量，一个是违反kkt条件最严重的那一个，另一个由约束条件自动确定。如此，SMO算法将原问题不断分解为子问题并对子问题求解，进而达到求原问题的目的。

两个变量的二次规划求解方法

得到alpha _1,alpha _2的递推公式

假设已经选择 $\alpha _1,\alpha _2$ ，其他橙子是固定的，于是式(13)可以写成：

m i n α 1, α 2 1 2 α 21 < x 1, x 1 > + 1 2 α 22 < x 2, x 2 > + α 1 α 2 y 1 y 2 < x 1, x 2 > - α 1 - α 2 + α 1 y 1 \sum i = 3 N α i y i < x i, x 1 > + α 2 y 2 \sum i = 3 N α i y i < x i, x 2 > s . t ., α 1 y 1 + α 2 y 2 = - \sum i = 3 N α i y i = ζ 0 \leq α i \leq C, i = 1, 2 (14)

$\underset{\alpha_1,\alpha_2 }{min}\frac{1}{2}\alpha_1^2<x_1,x_1>+\frac{1}{2}\alpha_2^2<x_2,x_2>+\alpha_1\alpha_2y_1y_2<x_1,x_2>\\-\alpha_1-\alpha_2+ \alpha_1y_1\sum_{i=3}^{N}\alpha _iy_i<x_i,x_1>+\alpha_2y_2\sum_{i=3}^{N}\alpha _iy_i<x_i,x_2>\\ s.t.,\alpha_1y_1+\alpha_2y_2=-\sum_{i=3}^{N}\alpha _iy_i=\zeta \\ 0\leq \alpha _i\leq C ,i=1,2 \tag{14}$

对于上述优化问题来说常数因子没有意义，故省略了很多不含 $\alpha_1,\alpha_2$ 的常数项，如 $\alpha_3\alpha_4y_3y_4<x_3,x_4>$ 。
因为符号太多，想办法做下简化，令
$K_{ij}=K(x_i,x_j)=<x_i,x_j> \tag{15}$
如上一章所讲，内积只是 $x_i,x_j$ 是数据集线性可分的情况下的计算方式，如果引入其他升维核函数将不是内积，这里用 $K_{ij}$ 来代换是合适的。
(14)写成：