SVM算法（五）SMO算法

最新推荐文章于 2023-03-23 14:08:48 发布

guofei_fly

最新推荐文章于 2023-03-23 14:08:48 发布

阅读量526

点赞数

分类专栏：机器学习文章标签： SVM SMO算法

本文链接：https://blog.csdn.net/guofei_fly/article/details/102715516

版权

机器学习专栏收录该内容

39 篇文章 10 订阅

订阅专栏

根据前文SVM算法（四）接近线性可分的SVM求解，通过软边界的设定以及拉格朗日函数对偶问题的求解，同时引入核函数，最终的分隔面求解问题变成了如下拉格朗日乘子 $\alpha$ 的二次规划问题：
$\begin{aligned}&\min_\alpha \frac{1}{2}\sum\limits_{i=1}^n\sum\limits_{j=1}^n\alpha_i\alpha_jy_iy_jK(x_i,x_j)-\sum\limits_{i=1}^n\alpha_i\\&s.t.\quad 0\le\alpha\le C\\&\qquad \sum_{i=1}^n\alpha_iy_i=0 \end{aligned}$ 求解二次规划问题有多种方法，本文介绍常用的SMO算法(序列最小化优化，Sequential Minimal Optimization)，其优点主要体现在：每次对一组 $\alpha_i,\alpha_j$ 进行迭代优化，可以减小计算量。

一、一组 $\alpha_i,\alpha_j$ 的二次优化问题

对偶问题中存在 $n$ 个未知量 $\alpha$ （即拉格朗日乘子，数量等同于数据量），目标解应能够满足KKT条件，当然满足KKT条件的一组 $\alpha$ 即为目标解。根据SVM算法（四）接近线性可分的SVM求解中对各类点与分隔面的关系论述，存在如下三种情况，分别对应于错分点（需通过软件软间隔修正）、支持向量和远离分割面点（划分正确）： $\begin{aligned}&\alpha_i=C \Leftrightarrow y_i(wx_i+b)\le1\\& 0<\alpha_i<C \Leftrightarrow y_i(wx_i+b)=1\\&\alpha_i=0 \Leftrightarrow y_i(wx_i+b)\ge1\end{aligned}$ 我们难以一次性求出满足适合于上述条件的一组 $\alpha$ ，根据问题分解的思想，我们假设每次只变动两个变量 $\alpha_i,\alpha_j$ ，固定住其它变量，通过这种迭代，可以使目标函数不断变小，从而求得满足KKT条件的全部 $\alpha$ ，使得目标函数的最小值。
根据这种思想，不妨只探讨变量为 $\alpha_1$ 和 $\alpha_2$ 情形，此时最小化问题可改写为： $\begin{aligned}&\min_{\alpha_1,\alpha_2}\frac{1}{2}\alpha_1^2K_{11}+\frac{1}{2}\alpha_2^2K_{22}+\alpha_1y_1\sum_{i=3}^n\alpha_iy_iK_{1i}+\alpha_2y_2\sum_{i=3}^n\alpha_iy_iK_{2i}-\alpha_1-\alpha_2\\&s.t.\quad\alpha_1y_1+\alpha_2y_2=-\sum_{i=3}^n\alpha_iy_i=\zeta\\&\qquad0\le\alpha_1\le C,0\le\alpha_2\le C\end{aligned}$ 其中 $K_{ij}$ 表示 $K(x_i,x_j)$ 暂不考虑可行域，将 $\alpha_1=y_1(\zeta-\alpha_2y_2)$ 代入目标函数，可得： $W=\frac{1}{2}K_{11}(\zeta-\alpha_2y_2)^2+\frac{1}{2}K_{22}\alpha_2^2+(\zeta-\alpha_2y_2)\alpha_2y_2K_{12}-y_1(\zeta-\alpha_2y_2)-\alpha_2+\sum_{i=3}^n(\zeta-\alpha_2y_2)\alpha_iy_iK_{1i}+\sum_{i=3}^n\alpha_2y_2\alpha_iy_iK_{2i}$ 为方便推导，不妨令： $\begin{aligned}&g(x_j)=\sum_{i=1}^n\alpha_iy_iK_{ij}+b\\&v(x_j)=\sum_{i=3}^n\alpha_iy_iK_{ij}=g(x_j)-\alpha_1y_1K_{1j}-\alpha_2y_2K_{2j}-b\end{aligned}$ 注意到 $g(x_i)$ 即为根据参数 $\alpha,b$ 得到的 $x_i$ 的预测值（未加符号函数，可理解成函数距离），因此目标函数可进一步写成： $W=\frac{1}{2}K_{11}(\zeta-\alpha_2y_2)^2+\frac{1}{2}K_{22}\alpha_2^2+(\zeta-\alpha_2y_2)\alpha_2y_2K_{12}-y_1(\zeta-\alpha_2y_2)-\alpha_2+(\zeta-\alpha_2y_2)v_1+\alpha_2y_2v_2$
这是关于 $\alpha_2$ 单变量的二次函数，通过令其导数为0求得最值： $\frac{\partial W}{\partial \alpha_2}=\alpha_2(K_{11}+K_{22}-2K_{12})-\zeta y_2K_{11}+\zeta y_2K_{12}+y_1y_2-1-y_2v_1+y_2v_2=0$ 将 $v_1,v_2$ 分别用 $g(x_1),g(x_2)$ 表示，以及 $y_2^2=1$ 可得 $\begin{aligned}(K_{11}+K_{22}-2K_{12})\alpha_2&=y_2(\zeta K_{11}-\zeta K_{12}-y_1+y_2+v_1-v_2)\\&=y_2[\zeta K_{11}-\zeta K_{12}-y_1+y_2+(g(x_1)-\alpha_1y_1K_{11}-\alpha_2y_2K_{12}-b)-(g(x_2)-\alpha_1y_1K_{12}-\alpha_2y_2K_{22}-b)]\end{aligned}$ 注意到，在上式等号左端项的 $\alpha_2$ 为更新后的目标参数（用 $\alpha_2^{new}$ 表示），而等号右端项中由 $\zeta, v$ 得到的 $\alpha_1,\alpha_2$ 均为预先固定，即更新前的参数值（用 $\alpha_2^{old}$ 表示）。
同时，令 $E_i$ 表示预测函数距离与真实 $y_i$ 的差，即： $E_i=g(x_i)-y_i$ 因此，导数为0的式子可简化为： $(K_{11}+K_{22}-2K_{12})\alpha_2^{new}=(K_{11}+K_{22}-2K_{12})\alpha_2^{old}+y_2(E_1-E_2)$ 这即为 $\alpha_2$ 的迭代公式，根据约束条件 $\alpha_1y_1+\alpha_2y_2=\zeta$ ，可同步更新对应的 $\alpha_1$ 。

二、带约束最小问题的求解

在上面的推导过程中，还存在两点漏洞需要解决：
（1）如何保证经过这样迭代的目标 $W$ 变小？
（2） $\alpha_2$ 在求解中忽略了可行域的影响。

对于问题（1），注意到 $W$ 关于 $\alpha_2$ 的二次项系数为 $K_{11}+K_{22}-2K_{12}$ ，假设对应核函数 $K$ 的隐式特征空间变换函数为 $\phi$ ，则该系数可写成： $\phi(x_1)\phi(x_1)+\phi(x_2)\phi(x_2)-2\phi(x_1)\phi(x_2)=||\phi(x_1)-\phi(x_2)||^2\ge0$ 非特殊情况下， $\phi(x_1)\ne \phi(x_2)$ ，这意味着目标函数 $W$ 为开口向上的二次函数，存在最小值。通过令梯度为0可以保证目标函数变小。
令 $\eta=K_{11}+K_{22}-2K_{12}$ ，则 $\alpha_2$ 的迭代公式可改写为： $\alpha_2^{new}=\alpha_2^{old}+\frac{y_2(E_1-E_2)}{\eta}$

对于问题（2），因为 $\alpha_1y_1+\alpha_2y_2=\zeta$ ，且 $0\le\alpha\le C$ ，显然 $\alpha_2$ 并不能任意取值。因为 $y_1,y_2\in\{+1,-1\}$ ，所里存在两种情况： $y_1=y_2$ 和 $y_1\ne y_2$ 。
又考虑到等式的对称性，不妨令这两种情况分别对应于： $\begin{aligned}\alpha_1-\alpha_2=\zeta\\\alpha_1+\alpha_2=\zeta\end{aligned}$ 分别用二维平面表示约束条件：
在这里插入图片描述
对于 $\alpha_1-\alpha_2=\zeta$ ：
如果 $\zeta>0$ ，即 $\alpha_1>\alpha_2$ ，新的 $\alpha_2$ 约束边界为 $C-\zeta]$ ;
如果 $\zeta<0$ ，即 $\alpha_1<\alpha_2$ ，新的 $\alpha_2$ 约束边界为 $[-\zeta, C]$
将两者合并，边界为 $[\max(0, -\zeta), \min(C,C-\zeta)]$ ，用原始的 $\alpha_1^{old},\alpha_2^{old}$ 表示，即为：
$\begin{aligned}&L=\max(0,\alpha_2^{old}-\alpha_1^{old})\\&H=\min(C,C+\alpha_2^{old}-\alpha_1^{old})\end{aligned}$
对于 $\alpha_1+\alpha_2=\zeta$ ：
如果 $\zeta<C$ ，新的 $\alpha_2$ 约束边界为 $\zeta]$ ;
如果 $\zeta>C$ ，新的 $\alpha_2$ 约束边界为 $[\zeta-C, C]$ ;
将两者合并，边界为 $[\max(0, \zeta-C), \min(C,\zeta)]$ ，
用原始的 $\alpha_1^{old},\alpha_2^{old}$ 表示，即为：
$\begin{aligned}&L=\max(0,\alpha_2^{old}+\alpha_1^{old}-C)\\&H=\min(C,\alpha_2^{old}+\alpha_1^{old})\end{aligned}$
因此，在求得无约束的最优解 $\alpha_2^{new,unc}$ ，后需要根据约束边界进行裁剪。经裁剪后的最优解是： $\alpha_2^{new}=\begin{cases}H,\alpha_2^{new,unc}>H\\\alpha_2^{new,unc},L\le \alpha_2^{new,unc} \le H\\ L,\alpha_2^{new,unc}<L\end{cases}$

三、SMO算法流程

基于上述的推导，完整的SMO算法流程如下：
1）选取一组初值 $\alpha_i^{(0)}$ （一般取0），上标 $k$ 表示迭代轮数，对于初值即 $k = 0$
2）选择一组需要更新的 $\alpha_1^{(k)},\alpha_2^{(k)}$ 。那如何选择呢？其包含外循环寻找 $\alpha_1^{(k)}$ 和内循环寻找 $\alpha_2^{(k)}$ 两个阶段。
外循环搜索 $\alpha_1^{(k)}$ 。注意到最优解 $\alpha^*$ 满足KKT条件，无需更新。那意味着需要迭代的 $\alpha_i$ 必然违背KKT条件。因此我们可以按照支持向量点（对应 $0<\alpha_i <C$ ）——>所有其余点的顺序选出违背KKT条件最严重的一组点作为 $x_1,y_1)$ ，对应的拉格朗日乘子即为 $\alpha_1^{(k)}$ 。
内循环搜索 $\alpha_2^{(k)}$ 。注意到 $\alpha_2^{new}=\alpha_2^{old}+\frac{y_2(E_1-E_2)}{\eta}$ ，为使得迭代加速，希望 $\alpha_2$ 变换程度大。换言之，希望 $\frac{y_2(E_1-E_2)}{\eta}$ 的绝对值大。一种简单的做法是，选择与 $E_1$ 符号相反、且绝对值最大的 $E_2$ 对应的点作为 $x_2,y_2)$ ，对应的拉格朗日乘子即为 $\alpha_2^{(k)}$ 。
3）按照上文的解析方法，得到更新的后的 $\alpha_1^{(k+1)},\alpha_2^{(k+1)}$
4）如果所有的 $\alpha_i^{(k+1)}$ 均满足约束条件和KKT条件，即满足： $\begin{aligned}&\sum_{i=1}^n\alpha_i^{(k+1)}y_i=0\\&0\le\alpha_i^{(k+1)}\le C\\&y_i*g(x_i)=\begin{cases}\ge1,if \quad \alpha_i=0\\=1, if \quad 0<\alpha_i<C\\\le1,if \quad \alpha_i=C\end{cases}\end{aligned}$ 其中 $g(x_i)$ 为根据当前 $\alpha^{(k)}$ 得到的预测的函数间距，即 $g(x_i)=\sum_{j=1}^n\alpha_j^{{(k+1)}}y_jK(x_j,x_i)+b$ 则取得目标最优的一组 $\alpha^*$
否则，转向步骤2）进行下一轮 $\alpha^{(k+1)}$ 的筛选和迭代。