【统计学习方法】支持向量机之序列最小最优化(SMO)算法

最新推荐文章于 2023-03-23 14:08:48 发布

置顶菜小白—NLP

最新推荐文章于 2023-03-23 14:08:48 发布

阅读量601

点赞数 1

本文链接：https://blog.csdn.net/ACM_hades/article/details/90701030

版权

一、序列最小最优化算法

序列最小最优化(SMO)算法是用来解SVM的对偶问题(凸二次规划)的算法： $\min_α⁡(\frac{1}{2}∑_{i=1}^N∑_{j=1}^N α_i α_j y_i y_j K(x_i ,x_j)-∑_{i=1}^Nα_i )$ $\qquad∑_{i=1}^N α_i y_i =0 \\0≤α_i≤C ,i=1,2,…,N$
这里变量是 $α_i$ ,一个变量 $α_i$ 对应于一个样本点 $x_i,y_i)$ ；变量的总数等于训练样本容量 $N$ .
KKT条件是该最优化问题的充分必要条件，即最优解 $α^*$ 一定满足KKT条件，满足KKT条件的 $α$ 一定是最优解。KKT条件如下： $_w L(w,b,ξ,α,μ )=w-∑_{i=1}^Nα_iy_i x_i =0$ $_b L(w,b,ξ,α,μ )=-∑_{i=1}^Nα_i y_i =0$ $_(ξ_i ) L(w,b,ξ,α,μ)=C-α_i-μ_i=0$ $y_i (w*x_i+b )-1+ξ_i≥0$ $α_i≥0$ $α_i (y_i (w*x_i+b )-1+ξ_i )=0$ $ξ_i≥0$ $μ_i≥0$ $μ_i ξ_i=0\qquad i=1,2,…,N$
SMO算法是一种启发式算法，其基本思路是:
- 如果所有变量的解都满足KKT条件,那么这个解就是最优解。
- 否则，选择两个变量，固定其他变量，针对这两个变量构建一个二次规划问题(称为原问题的子问题).这个二次规划问题关于这两个变量的解应该更接近原始二次规划问题的解，即使得原始二次规划问题的目标函数值变得更小.
重要的是，子问题可以通过解析方法求解，这样就可以大大提高整个算法的计算速度.
子问题两个变量的选取方式：一个是违反KKT条件最严重的那一个，另一个是根据第一个变量选择跟新最大的那个，以假设模型收敛.
因此SMO算法将原问题不断分解为子问题并对子问题求解，进而达到求解原问题的目的.
注意，子问题的两个变量中只有一个是自由变量。假设 $α_1,α_2$ 为两个变量， $α_3,α_4,…,α_N$ 固定，那么由等式约束: $_{i=1}^N α_i y_i =0$ 可知: $α_1=-y_1 ∑_{i=2}^Nα_i y_i$ 所以子问题是一个一元函数优化问题.
整个SMO算法包括两个部分：求解子问题和选择子问题中的两个变量

二、子问题的求解

不失一般性，假设选择的两个变量是 $α_1,α_2$ ，其他变量 $α_i (i=3,4,…,N)$ 是固定的.于是SMO的最优化问题的子问题可以写成： $\min_{α_1,α_2 }⁡W(α_1,α_2)=\frac{1}{2} K_{11} α_1^2+\frac{1}{2} K_11 α_2^2+y_1 y_2 K_{12} α_1 α_2+y_1 α_1 ∑_{i=3}^Ny_i α_i K_{i1} +y_2 α_2 ∑_{i=3}^Ny_i α_i K_{i2} -(α_1+α_2 )+B$ $\qquad y_1 α_1+y_2 α_2=-∑_{i=3}^N α_i y_i =ζ \\0≤α_i≤C ,i=1,2,…,N$ 其中其中 $K_{i2}=K(x_i,x_j)，B,ζ$ 是常数
首先分析约束条件,由于只有两个变量 $α_1,α_2)$ ，所以约束可以用二维空间中的图形表示:

图中的线段就是目标函数的可行域.
由上面的分析可知实质上的单变量的最优化问题，不妨考虑为变量 $α_2$ 的最优化问题： $α_1=-y_1 ∑_{i=2}^Nα_i y_i =y_1 (ζ-y_2 α_2)$
变量符号：初始可行解为 $α_1^{old},α_2^{old})$ ，最优解为 $α_1^{new},α_2^{new})$ ，并且假设在沿着约束方向未经剪辑时 $α_2$ 的最优解为 $α_2^{new,unc}$ .
由于 $α_i^{old}$ 为可行解，所以满足约束条件： $_{i=1}^N α_i^{old} y_i =0$ 得： $_{i=1}^N α_i^{old} y_i =y_1 α_1^{old}+y_2 α_2^{old}-ζ=0$ 所以： $y_1 α_1^{old}+y_2 α_2^{old}=ζ$
最优值 $α_2^{new}$ 的取值范围: $L≤α_2^{new}≤H$ 其中 $L$ 与 $H$ 是 $α_2^{new}$ 所在的对角线段端点的界.

其中直线的表达式为： $y_1 α_1+y_2 α_2=ζ=y_1 α_1^{old}+y_2 α_2^{old}$
如果 $y_1!=y_2$ :
- 取 $α_1=0$ 得 $L：L=max(0,α_2^{old}-α_1^{old})$
- 取 $α_1=C$ 得 $H：L=min(C,C+α_2^{old}-α_1^{old})$
如果划 $y_1=y_2$ ，
- 取 $α_1=C$ 得 $L：L=max(0,α_2^{old}+α_1^{old}-C)$
- 取 $α_1=0$ 得 $H：L=min(C,α_2^{old}+α_1^{old})$
首先求沿着约束直线求解 $α_2$ 最优解 $α_2^{new,unc}$ ，即先不考虑上面不等式约束；令： $g(x)=∑_{i=1}^Nα_i y_i K(x_i ,x)+b$ 相当于决策函数，但是不是最优的。再令误差为： $E_i=g(x_i )-y_i=(∑_{j=1}^Nα_j y_j K(x_j ,x_i)+b)-y_i$ 其中 $i={1,2}$ ,再记： $v_i=∑_{j=3}^Nα_j y_j K(x_j ,x_i)=g(x_i )-∑_{j=1}^2α_j y_j K(x_j ,x_i)-b \qquad i=1,2$
目标函数可以写成： $W(α_1,α_2)=\frac{1}{2} K_{11} α_1^2+\frac{1}{2} K_{11} α_2^2+y_1 y_2 K_{12} α_1 α_2+y_1 α_1 v_1+y_2 α_2 v_2-(α_1+α_2 )+B$ 用 $α_2$ 来表示 $α_1$ ： $α_1=y_1 (ζ-y_2 α_2)$ $y_i^2=1$ 带入： $W(α_2 )=\frac{1}{2} K_{11} (ζ-y_2 α_2 )^2+\frac{1}{2} K_{11} α_2^2+y_2 K_{12} (ζ-y_2 α_2)α_2+(ζ-y_2 α_2)v_1+y_2 α_2 v_2-(y_1 (ζ-y_2 α_2)+α_2 )+B$ 求导： $\frac{∂W(α_2 )}{∂α_2 }=K_{11} α_2-y_2 ζK_{11}+K_{22} α_2+K_{12} y_2 ζ-2K_12 α_2-y_2 v_1+y_2 v_2-1+y_1 y_2$ 令其为0，得到： $K_{11}+K_{22} α_2-2K_{12} ) α_2=y_2 (v_1-v_2+y_2-y_1+ζK_{11}-ζK_{12} )$ $y_2 (y_2-y_1+ζK_{11}-ζK_{12}+(g(x_1 )-∑_{j=1}^2α_j^{old} y_j K_{1j} -b )-(g(x_2 )-∑_{j=1}^2α_j^{old} y_j K_{2j} -b ))$ $y_2 (y_2-y_1+ζK_{11}-ζK_{12}+g(x_1 )-g(x_2 ))$ 将 $ζ=y_1 α_1^{old}+y_2 α_2^{old}$ 带入： $K_{11}+K_{22} α_2-2K_{12} ) α_2=y_2 (y_2-y_1+g(x_1 )-g(x_2 )+(K_{11}+K_{22}-2K_{12})α_2^{old} y_2 )$ $K_{11}+K_{22} α_2-2K_{12} ) α_2=y_2 (E_1-E_2 )+(K_{11}+K_{22}-2K_{12})α_2^{old}$ $α_2^{new,unc}=α_2^{old}+\frac{y_2 (E_1-E_2 )}{(K_11+K_22 α_2-2K_12 ) }$ 记 $K_{11}+K_{22} α_2-2K_{12} )=η$ ： $α_2^{new,unc}=α_2^{old}+\frac{y_2 (E_1-E_2 )}{η}$
再将 $α_2^{new,unc}$ 进行剪切： $\begin{cases} H, &α_2^{new,unc}>H \\ α_2^{new,unc}, & L<α_2^{new,unc}<H\\ L ,& L>α_2^{new,unc} \end{cases}$
再求 $α_1^{new}$ $α_1=y_1 (ζ-y_2 α_2)$ $ζ=y_1 α_1^{old}+y_2 α_2^{old}$ 得： $α_2^{new}=y_1 (y_1 α_1^{old}+y_2 α_2^{old}-y_2 α_2^{new} )=α_1^{old}+y_1 y_2 (α_2^{old}-α_2^{new})$

三、变量的选择方法

SMO算法在每个子问题中选择两个变量优化，其中至少一个变量是违反KKT条件的.
第1个变量的选择：
- SMO称选择第1个变量的过程为外层循环.外层循环在训练样本中选取违反KKT条件最严重的样本点，并将其对应的变量作为第1个变量.
- 具体地，检验训练样本点 $x_i,y_i)$ 是否满足KKT条件，即: $α_1=0 ⇔y_i g(x_i )≥1$ $0<α_1<C ⇔y_i g(x_i )=1$ $α_1=C ⇔y_i g(x_i )<1$ 这些式上面KKT条件的总结。其中： $g(x)=∑_{i=1}^Nα_i y_i K(x_i ,x)+b$
- 外层循环首先遍历所有满足条件 $0<α_1<C$ 的样本点，即在间隔边界上的支持向量点，检验它们是否满足KKT条件.如果这些样本点都满足KKT条件，那么遍历整个训练集，检验它们是否满足KKT条件.
第2个变量的选择：
- SMO称选择第2个变量的过程为内层循环.假设在外层循环中已经找到第1个变量 $α_1$ 现在要在内层循环中找第2个变量 $α_2$ .
- 第2个变量选择的标准是希望能使 $α_2$ ，有足够大的变化.
- 根据 $α_2$ 的更新公式： $α_2^{new,unc}=α_2^{old}+\frac{y_2 (E_1-E_2 )}{η}$ 可知， $α_2^{new}$ 是依赖于 $E_1-E_2 |$ 的，为了加快计算速度，一种简单的做法是选择 $α_2$ ，使其对应的 $E_1-E_2 |$ 最大.因为 $α_1$ 已定， $E_1$ 也确定了.如果 $E_1$ 是正的，那么选择最小的 $E_i$ 作为 $E_2$ ；如果 $E_1$ 是负的，那么选择最大的 $E_i$ 作为 $E_2$ ·为了节省计算时间，将所有 $E_i$ 值保存在一个列表中.
- 在特殊情况下，如果内层循环通过以上方法选择的 $α_2$ ，不能使目标函数有足够的下降，那么采用以下启发式规则继续选择 $α_2$ .遍历在间隔边界上的支持向量点，依次将其对应的变量作为 $α_2$ 试用，直到目标函数有足够的下降.若找不到合适的 $α_2$ ，那么遍历训练数据集；若仍找不到合适的 $α_2$ ，则放弃第1个 $α_1$ ，再通过外层循环寻求另外的 $α_1$ .

四、阈值和差值的更新：

在每次完成两个变量的优化后，都要重新计算阈值 $b$ .当 $0<α_1^{new}<C$ ,时， $α_1^{new}$ 在边界上： $_{i=1}^Nα_i y_i K_{i1} +b=y_1$ 于是： $b_1^{new}=y_1-∑_{i=3}^Nα_i^{old} y_i K_{i1} -α_1^{new} y_1 K_{11}-α_2^{new} y_2 K_{21}$ 由 $E_i$ 的定义可以得到： $E_1=g(x_1 )-y_1=∑_{j=1}^Nα_j y_j K_{j1} +b-y_1$ $E_1^{old}=∑_{j=1}^Nα_j^{old} y_j K_{j1} +b^{old}-y_1$ $y_i-∑_{j=3}^Nα_j^{old} y_j K(x_j ,x_i)=-E_1^{old}+α_1^{old} y_1 K_{11}+α_2^{old} y_2 K_{12}+b^{old}$ 所以： $b_1^{new}=-E_1^{old}-y_1 K_{11} (α_1^{new}-α_1^{old} )-y_2 K_{21} (α_2^{new}-α_2^{old} )+b^{old}$
同样,当 $0<α_2^{new}<C$ ,时， $α_2^{new}$ 也在边界上，那么： $b_2^{new}=-E_2^{old}-y_1 K_{12} (α_1^{new}-α_1^{old} )-y_2 K_{22} (α_2^{new}-α_2^{old} )+b^{old}$
如果 $α_1^{new}, α_2^{new}$ 同时满足条件 $0<α_i^{new}<C，i=1,2$ .那么 $b_2^{new}=b_1^{new}$ .如果 $α_1^{new}, α_2^{new}$ 是0或者C，那么 $b_2^{new}$ 和 $b_1^{new}$ 以及它们之间的数都是符合KKT条件的阈值，这时选择它们的中点作为 $b^{new}$ .
在每次完成两个变量的优化之后，还必须更新对应的 $E_i$ 值，并将它们保存在列表中,使用下面公式： $E_i=g(x_i )-y_i=∑_{j=1}^Nα_j y_j K_ji +b^{new}-y_i$

后篇：【统计学习方法】支持向量机之线性支持向量机