SVM(二):对偶算法、SMO算法

最新推荐文章于 2021-03-31 11:17:23 发布

knock_me

最新推荐文章于 2021-03-31 11:17:23 发布

阅读量1.2k

点赞数 2

分类专栏： SVM 文章标签：机器学习算法 SVM smo算法

本文链接：https://blog.csdn.net/knock_me/article/details/109304746

版权

SVM 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

拉格朗日乘子法
在学习对偶算法之前，首先我们需要了解一点数学知识——拉格朗日乘子法。它和高数中的拉格朗日乘数法很类似，都用于最优化的求解。不同的点是乘数法用于限制条件为等式的情况，而乘子法用于限制条件为不等式的情况。下面我们介绍一下两种方法，侧重点放在乘子法上面。

1、拉格朗日乘数法——等式约束

下面简单介绍下拉格朗日乘数法。
设给定二元函数z=ƒ(x,y)和附加条件φ(x,y)=0，为寻找z=ƒ(x,y)在附加条件下的极值点。

1. 先做拉格朗日函数F(x,y,λ)=f(x,y)+λφ(x,y) ，其中λ为参数。
2. 令F(x,y,λ)对x和y和λ的一阶偏导数等于零,得到
        $F'_x=ƒ'_x(x,y)+λφ'_x(x,y)=0$
      $F'_y=ƒ'_y(x,y)+λφ'_y(x,y)=0$
      $F'_λ=φ(x,y)=0$
3. 由上述方程组解出x,y及λ，如此求得的(x,y)，就是函数z=ƒ(x,y)在附加条件φ(x,y)=0下的可能极值点。若这样的点只有一个，由实际问题可直接确定此即所求的点。

2、拉格朗日乘子法——不等式约束

目标函数f(x)，不等式约束g(x)，有的教程会添加上等式约束条件h(x)=0。
此时最优化问题描述如下：
$\tag{2.1}min\ \ f(x) \\ s.t. \ \ \ g_i(x)\leqslant0 \ ; \ h_i(x)=0$

定义不等式约束下的拉格朗日函数L：
$L(x,λ,μ)=f(x)+\sum\limits_{1}\limits^{p}λ_ig_i(x)+\sum\limits_{1}\limits^{q}μ_jh_j(x) \tag{2.2}$

其中λ和μ叫做乘子，也是分别是g(x)和h(x)的约束系数。

学习的对偶算法
为了求解线性可分支持向量机的最优化问题，将它作为原始的最优化问题，应用~~拉格朗日对偶性~~，通过求解对偶问题(dual problem)得到原始问题的最优解,这就是线性可分支持向量机的对偶算法(dual algorithm)。
网页链接：拉格朗日对偶性
首先，我们来回顾一下原始的最优化问题，即原始问题：
$\min\limits_{w,b} \frac{1}{2}||w||^2 \\s.t. \ \ \ y_i(w^Tx_i+b) \geqslant 1,i=1,2,……,m \tag{2.3}$

根据上面的拉格朗日乘子法介绍来看，我们需要的约束函数是 $g(x)\leqslant0$ ，因此我们将原始问题的约束条件改为 $\ \ \ 1-y_i(w^Tx_i+b)\leqslant0$ 。然后，对上式中的约束添加拉格朗日乘子 $α_i\geqslant0$ 我们可以得到不等式约束条件下的拉格朗日函数L：
$\frac{1}{2}||w||^2 + \sum\limits_{i=1}^{m}α_i[1-y_i(w^Tx_i+b)] \tag{2.4}$

因为 $α_i\geqslant0$ ,且 $1-y_i(w^Tx_i+b)\leqslant0$ 。显然有:
$\max\limits_{α} \ \ L(w,b,α) = \frac{1}{2}||w||^2 \tag{2.5}$

因此原始问题 $\min\limits_{w,b}\frac{1}{2}||w||^2$ 可以写成：
$\min\limits_{w,b} \ \max\limits_{α} \ L(w,b,α) ==> \max\limits_{α} \min\limits_{w,b} \ L(w,b,α) \tag{2.6}$ 此时我们就得到了原始问题的对偶问题 $\max\limits_{α} \min\limits_{w,b} \ L(w,b,α)$ 。

对偶问题的求解
首先，我们先看内层的最优化问题，即 $\min\limits_{w,b} \ L(w,b,α)$ 。
用L(w,b,α)分别对w,b进行求导，令=0，得到下面两个式子:
$\sum\limits_{i=1}^{m}α_iy_ix_i$
$\sum\limits_{i=1}^{m}α_iy_i$
将上面两个公式带入 $\max\limits_{α} \min\limits_{w,b} \ L(w,b,α)$ 中，可以消去w和b(具体过程省略，可自行推导，较简单)，得到下面的公式：
$\max\limits_{α}\ \ \sum\limits_ {i=1}^{m}α_i - \frac{1}{2}\sum\limits_{i=1}^{m}\sum\limits_{j=1}^{m}α_iα_jy_iy_jx_i^Tx_j \tag{2.7} s.t. \ \ \ \sum\limits_{i=1}^{m}α_iy_i = 0;\ \ \ _i\geqslant 0,i = 1,2,…,m$
通过上面的式子可以解出α，然后求出w和b，然后就能得到最终的模型 $f(x) = w^Tx_i + b$ 。
具体的求解方法SMO看下一小节。

SMO
SMO(Sequential Minimal Optimization)，顺序最小优化算法。其基本思想是先固定 $α_i$ 之外的所有参数，然后求 $α_i$ 上的极值。因为存在 $\sum\limits_{i=1}^{m}α_iy_i = 0$ 的限制，所以固定 $α_i$ 之外的其他变量，则 $α_i$ 可以由其他变量表示。

具体过程：

SMO每次选择两个变量 $α_i$ 和 $α_j$ ，并固定其他的参数。这样在参数初始化后，SMO不断执行以下的两个步骤直至收敛：

选取一对需更新的变量 $α_i$ 和 $α_j$
固定 $α_i$ 和 $α_j$ 之外的参数，求解 $\max\limits_{α}\ \ \sum\limits_ {i=1}^{m}α_i - \frac{1}{2}\sum\limits_{i=1}^{m}\sum\limits_{j=1}^{m}α_iα_jy_iy_jx_i^Tx_j$ 获取更新后的 $α_i$ 和 $α_j$