顺序最小优化算法(SMO)

最新推荐文章于 2022-04-10 17:01:32 发布

y小川

最新推荐文章于 2022-04-10 17:01:32 发布

阅读量2.4k

点赞数 3

分类专栏： machine-learning 文章标签：顺序最小优化算法 smo算法 svm分类器机器学习

machine-learning 专栏收录该内容

34 篇文章 6 订阅

订阅专栏

引言:顺序最小优化(sequnential minimal optimal)算法由John Platt提出，可以高效地求解SVM的对偶问题。在此之前，我们先了解一下坐标上升算法

1. 坐标上升算法

如何解决下面的这个无约束优化问题：

max α W (α 1, α 2, \dots, α m) .

$\max_\alpha W(\alpha_1,\alpha_2,\ldots,\alpha_m).$

$W$ 是以 $\alpha_i$ 为变量的函数，我们用一种称为“坐标上升”的算法来求解它：

Loop until convergence:{For i=1,…,m {αi:=arg maxα^W(α1,…,αi−1,αi^,αi+1,…,αm).}}

$\begin{align} &\mathrm{Loop\ until\ convergence}:\{\\ &\qquad\mathrm{For}\ i=1,\ldots,m\ \{\\ &\qquad\qquad\alpha_i:=arg\ max_{\hat{\alpha}}W(\alpha_1,\ldots,\alpha_{i-1},\hat{\alpha_i},\alpha_{i+1},\ldots,\alpha_m).\\ &\qquad\}\\ &\}\\ \end{align}$

在这个算法的最内层循环中，我们固定其余变量，只修改 $\alpha_i$ 的值，以这种方式优化 $W$ 。在当前的版本中优化的顺序是从 $\alpha_1\to\alpha_m$ ，但是在更复杂的算法中，我们可以调整这个顺序，比如按 $W$ 变化最大的顺序优化 $\alpha$ 。

当我们以这种形式优化 $W$ 函数，坐标上升法将会是一个相当高效地算法。下面的图片描绘了坐标上升的运行过程：
coordinate ascent
图中的椭圆代表二次函数的等高线，坐标上升算法从 $(2,-2)$ 点开始运行，直至全局最优解。我们注意到它运行的每一步轨迹都垂直于坐标轴，这代表它每次只对一个变量进行优化。

2. SMO

这是我们之前经过L1正规化之后，推导出的对偶问题：

max α s . t . W (α) = \sum i = 1 m α i - 1 2 \sum i, j = 1 m y (i) y (j) α i α j ⟨ x (i), x (j) ⟩ 0 \leq α \leq C, i = 1, \dots, m \sum i = 1 m α i y (i) = 0, (1) (2) (3)

$\begin{align} \max_\alpha\ &W(\alpha) = \sum_{i=1}^m \alpha_i - \frac{1}{2} \sum_{i,j=1}^m y^{(i)} y^{(j)} \alpha_i \alpha_j \langle x^{(i)} , x^{(j)} \rangle \qquad &(1)\\ s.t. \ &0 \le \alpha \le C,\ i=1, \ldots, m&(2)\\ &\sum_{i=1}^m \alpha_i y^{(i)} = 0, &(3)\\ \end{align}$

假设我们有一组满足约束(2),(3)的 $\alpha_i$ ，现在我们固定 $\alpha_2,\alpha_3,\ldots,\alpha_m$ ，只更改 $\alpha_1$ 的值，依次顺序执行参数优化，我们可以得到 $W(\alpha)$ 的最优解吗？结果是不能！因为约束(3)保证了 $\alpha_1$ 可由其他 $\alpha_i$ 唯一确定：

α 1 y (1) = - \sum i = 2 m α i y (i) \Rightarrow α 1 = - y (1) \sum i = 2 m α i y (i)

$\begin{align} \alpha_1 y^{(1)} = - \sum_{i=2}^m \alpha_i y^{(i)}\\ \Rightarrow \alpha_1 = - y^{(1)} \sum_{i=2}^m \alpha_i y^{(i)}\\ \end{align}$

因此如果我们想修改某个 $\alpha_i$ 的值必须同时修改至少两个变量才能满足约束。据此我们确定SMO算法：

R e p e a t u n t i l c o n v e r g e n c e : {1. S e l e c t s o m e p a i r α i a n d α j t o u p d a t e n e x t (u s i n g a h e u r i s t i c t h a t t r i e s t o p i c k t h e t w o t h a t w i l l a l l o w u s t o m a k e t h e b i g g e s t p r o g r e s s t o w a r d s t h e g l o b a l m a x i m u n) . 2. R e o p t i m i z e W (α) w i t h r e s p e c t t o α i a n d α j, w h i l e h o l d i n g a l l t h e o t h e r α' k s (k \neq i, j) f i x e d .}

$\begin{align} &\mathrm {Repeat\ until\ convergence}:\{\\ &\qquad 1. \mathrm{Select\ some\ pair\ \alpha_i\ and\ \alpha_j\ to\ update\ next\ (using\ a\ heuristic\ that\ }\\ &\qquad \mathrm{tries\ to \ pick \ the\ two\ that\ will\ allow\ us\ to\ make\ the\ biggest\ progress}\\ &\qquad \mathrm{towards\ the\ global\ maximun).}\\ &\qquad2.\mathrm{Reoptimize}\ W(\alpha)\ \mathrm{with\ respect\ to\ \alpha_i\ and\ \alpha_j,\ while\ holding\ all\ the }\\ &\qquad \mathrm{other\ \alpha_k's}\ (k\neq i,j)\ \mathrm{fixed.}\\ &\}\\ \end{align}$

为了测试算法是否收敛，我们可以测算KKT条件是否小于容忍限 $tol$ 。它的值通常在0.01到0.001之间（可以查看Platt的文章）。SMO算法高效的原因是因为求解 $\alpha_i,\alpha_j$ 的过程十分高效，现在我们来简单推导一下。