手推SVM算法(含SMO证明）

最新推荐文章于 2024-05-21 15:39:00 发布

黑桃5200

最新推荐文章于 2024-05-21 15:39:00 发布

阅读量1.7k

点赞数 3

分类专栏：机器学习算法机器学习一小步面试 SVM

本文链接：https://blog.csdn.net/Heitao5200/article/details/89151466

版权

机器学习算法同时被 3 个专栏收录

38 篇文章 10 订阅

订阅专栏

机器学习一小步

17 篇文章 0 订阅

订阅专栏

面试

16 篇文章 3 订阅

订阅专栏

文章目录

函数间隔

$\hat{\gamma}=y\left(w^{T} x+b\right)=y f(x)$

几何间隔

$\tilde{\gamma}=y \hat{\gamma}=\frac{\hat{\gamma}}{\|w\|} = \frac{y\left(w^{T} x+b\right)}{\|w\|}$
函数间隔可以表示分类预测的正确性及确信度。但是选择分离超平面时，只有函数间隔还不够。因为只要成比例地改变w和 $b$ ，例如将它们改为 $2 w$ 和 $2 b$ ，超平面并没有改变，但函数间隔却成为原来的 $2$ 倍。这一事实启示我们，可以对分离超平面的法向量w加某些约束，如规范化， $∣ ∣ w ∣ ∣ ＝ 1$ ，使得间隔是确定的。这时函数间隔成为几何间隔（geometricmargin）。

SVM的目标：最大化几何间隔

SVM的模型是让所有点到超平面的距离大于一定的距离，也就是所有的分类点要在各自类别的支持向量两边。
$\max\ \frac{y\left(w^{T} x+b\right)}{\|w\|}$

$s.t.\ \ y_{i}\left(w^{T} x_{i}+b\right)=\hat{\gamma} \geq \hat{\gamma}$
一般我们都取函数间隔 $\gamma$ 为1，这样我们的优化函数定义为：
$\max \frac{1}{\|w\|}$

$}\ \ y_{i}\left(w^{T} x_{i}+b\right) \geq 1(i=1,2, \ldots m)$
由于 $\frac{1}{\|w\|}$ 的最大化等同于 $\frac{1}{2}{\|w\|}^2$ 的最小化。这样SVM的目标函数等价于：
$\min \frac{1}{2}{\|w\|}^2$

$}\ \ y_{i}\left(w^{T} x_{i}+b\right) \geq 1(i=1,2, \ldots m)$

由于目标函数 $\min \frac{1}{2}{\|w\|}^2$ 是凸函数(证明)，同时约束条件不等式是仿射的，根据凸优化理论，我们可以通过拉格朗日函数将我们的优化目标转化为无约束的目标函数。优化函数转化为：
$\alpha)=\frac{1}{2}\|w\|^{2}-\sum_{i=1}^{m} \alpha_{i}\left[y_{i}\left(w^{T} x_{i}+b\right)-1\right] \qquad \\$

$\qquad\qquad\qquad\qquad\qquad\qquad$ 其中 $\alpha_i$ 为拉格朗日乘子向量,且 $\alpha_i \geq0$ 。
根据拉格朗日对偶性，原始问题的对偶问题是极大极小问题：
$\max _{\alpha} \min _{w, b} L(w, b, \alpha)$

为了得到对偶问题的解，需要先求 $\alpha)$ 对 $w, b$ 的极小，再求对 $\alpha$ 的极大。

求 $L (w, b, α)$ 基于 $w$ 和 $b$ 的极小值，即 $\min _{w, b} L(w, b, \alpha)$ ,

对 $w$ 和 $b$ 分别求偏导数得到：
$\frac{\partial L}{\partial w}=0 \Rightarrow w=\sum_{i=1}^{m} \alpha_{i} y_{i} x_{i}$

$\frac{\partial L}{\partial b}=0 \Rightarrow \sum_{i=1}^{m} \alpha_{i} y_{i}=0$

带入优化函数 $L (w, b, α)$ 消去 $w$
$\begin{aligned} \psi(\alpha) &=\frac{1}{2}\|w\|^{2}-\sum_{i=1}^{m} \alpha_{i}\left[y_{i}\left(w^{T} x_{i}+b\right)-1\right] \\ &=\frac{1}{2} w^{T} w-\sum_{i=1}^{m} \alpha_{i} y_{i} w^{T} x_{i}-\sum_{i=1}^{m} \alpha_{i} y_{i} b+\sum_{i=1}^{m} \alpha_{i} \\ &=\frac{1}{2} w^{T} \sum_{i=1}^{m} \alpha_{i} y_{i} x_{i}-\sum_{i=1}^{m} \alpha_{i} y_{i} w^{T} x_{i}-\sum_{i=1}^{m} \alpha_{i} y_{i} b+\sum_{i=1}^{m} \alpha_{i} \\ &=-\frac{1}{2} w^{T} \sum_{i=1}^{m} \alpha_{i} y_{i} x_{i}-b \sum_{i=1}^{m} \alpha_{i} y_{i}+\sum_{i=1}^{m} \alpha_{i} \\ &=-\frac{1}{2} \sum_{i=1}^{m} \alpha_{i} y_{i} x_{i}^{T} \sum_{i=1}^{m} \alpha_{i} y_{i} x_{i}-b \sum_{i=1}^{m} \alpha_{i} y_{i}+\sum_{i=1}^{m} \alpha_{i} \\& =-\frac{1}{2} \sum_{i=1}^{m} \alpha_{i} y_{i} x_{i}^{T} \sum_{i=1}^{m} \alpha_{i} y_{i} x_{i}+\sum_{i=1}^{m} \alpha_{i} \\ &=\sum_{i=1}^{m} \alpha_{i}-\frac{1}{2} \sum_{i=1, j=1}^{m} \alpha_{i} \alpha_{j} y_{i} y_{j} x_{i}^{T} x_{j} \end{aligned}$

求 $L (w, b, α)$ 基于 $\alpha$ 的极大值。
$\underbrace{m a x}_{\alpha}-\frac{1}{2} \sum_{i=1}^{m} \sum_{j=1}^{m} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \bullet x_{j}\right)+\sum_{i=1}^{m} \alpha_{i}$

$\ \sum_{i=1}^{m} \alpha_{i} y_{i}=0$

$\alpha_{i} \geq 0 i=1,2, \ldots m$

可以去掉负号，即为等价的极小化问题如下：
$\underset{\alpha}{\min } \frac{1}{2} \sum_{i=1}^{m} \sum_{j=1}^{m} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \bullet x_{j}\right)-\sum_{i=1}^{m} \alpha_{i}$

$\ \sum_{i=1}^{m} \alpha_{i} y_{i}=0$

$\alpha_{i} \geq 0 i=1,2, \ldots m$

以上是线性分类SVM的硬间隔最大化，下面非线性分类SVM的软间隔最大化

软间隔

SVM对训练集里面的每个样本(xi,yi)引入了一个松弛变量 $ξ_i≥0$ ,使函数间隔加上松弛变量大于等于1，也就是说软间隔的约束条件：
$y_{i}\left(w^{T} x_{i}+b\right) \geq 1 - \xi_{i}$
SVM的目标函数变成：
$\min \frac{1}{2}\|w\|^{2}+C \sum_{i=1}^{m} \xi_{i}$

$s.t.\ y_{i}\left(w^{T} x_{i}+b\right) \geq 1-\xi_{i} \quad(i=1,2, \ldots m)$

$\xi_{i} \geq 0 \quad(i=1,2, \dots m)$
求解方法

将软间隔最大化的约束问题用拉格朗日函数转化为无约束问题
$\xi, \alpha, \mu)=\frac{1}{2}\|w\|^{2}+C \sum_{i=1}^{m} \xi_{i}-\sum_{i=1}^{m} \alpha_{i}\left[y_{i}\left(w^{T} x_{i}+b\right)-1+\xi_{i}\right]-\sum_{i=1}^{m} \mu_{i} \xi_{i}$

$\qquad\qquad\qquad\qquad\qquad\qquad$ 其中 $\alpha_i，\mu_{i}$ 为拉格朗日乘子向量,且 $\alpha_i \geq0，\mu_{i}\geq0$ 。
优化目标也满足KKT条件，通过拉格朗日对偶将我们的优化问题转化为等价的对偶问题来求解

求 $\xi, \alpha, \mu)$ 基于 $w$ ， $\xi$ ， $b$ 的极小值

对 $w$ ， $\xi$ 和 $b$ 分别求偏导数得到：
$\frac{\partial L}{\partial w}=0 \Rightarrow w=\sum_{i=1}^{m} \alpha_{i} y_{i} x_{i}$

$\frac{\partial L}{\partial b}=0 \Rightarrow \sum_{i=1}^{m} \alpha_{i} y_{i}=0$

$\frac{\partial L}{\partial \xi}=0 \Rightarrow C-\alpha_{i}-\mu_{i}=0$

带入优化函数 $\xi, \alpha, \mu)$ 消去 $w ， b$
$\begin{aligned} L(w, b, \xi, \alpha, \mu) &=\frac{1}{2}\|w\|^{2}+C \sum_{i=1}^{m} \xi_{i}-\sum_{i=1}^{m} \alpha_{i}\left[y_{i}\left(w^{T} x_{i}+b\right)-1+\xi_{i}\right]-\sum_{i=1}^{m} \mu_{i} \xi_{i} \\ &=\frac{1}{2}\|w\|^{2}-\sum_{i=1}^{m} \alpha_{i}\left[y_{i}\left(w^{T} x_{i}+b\right)-1+\xi_{i}\right]+\sum_{i=1}^{m} \alpha_{i} \xi_{i} \\& =\frac{1}{2}\|w\|^{2}-\sum_{i=1}^{m} \alpha_{i}\left[y_{i}\left(w^{T} x_{i}+b\right)-1\right] \\&=\frac{1}{2} w^{T} w-\sum_{i=1}^{m} \alpha_{i} y_{i} w^{T} x_{i}-\sum_{i=1}^{m} \alpha_{i} y_{i} b+\sum_{i=1}^{m} \alpha_{i} \\&=\frac{1}{2} w^{T} \sum_{i=1}^{m} \alpha_{i} y_{i} x_{i}-\sum_{i=1}^{m} \alpha_{i} y_{i} w^{T} x_{i}-\sum_{i=1}^{m} \alpha_{i} y_{i} b+\sum_{i=1}^{m} \alpha_{i} \\&=-\frac{1}{2} w^{T} \sum_{i=1}^{m} \alpha_{i} y_{i} x_{i}-b \sum_{i=1}^{m} \alpha_{i} y_{i}+\sum_{i=1}^{m} \alpha_{i} \\&=-\frac{1}{2}\left(\sum_{i=1}^{m} \alpha_{i} y_{i} x_{i}\right)^{T}\left(\sum_{i=1}^{m} \alpha_{i} y_{i} x_{i}\right)-b \sum_{i=1}^{m} \alpha_{i} y_{i}+\sum_{i=1}^{m} \alpha_{i} \\&=-\frac{1}{2} \sum_{i=1, j=1}^{m} \alpha_{i} y_{i} x_{i}^{T} \alpha_{j} y_{j} x_{j}+\sum_{i=1}^{m} \alpha_{i} \\&=\sum_{i=1}^{m} \alpha_{i}-\frac{1}{2} \sum_{i=1, j=1}^{m} \alpha_{i} \alpha_{j} y_{i} y_{j} x_{i}^{T} x_{j} \end{aligned}$

求 $\xi, \alpha, \mu)$ 基于 $\alpha，\mu$ 的极大值，可以去掉负号，即为等价的极小化问题。

$\underbrace{\min }_{\alpha} \frac{1}{2} \sum_{i=1, j=1}^{m} \alpha_{i} \alpha_{j} y_{i} y_{j} x_{i}^{T} x_{j}-\sum_{i=1}^{m} \alpha_{i}$

$s.t.\ \ \sum_{i=1}^{m} \alpha_{i} y_{i}=0$

$\left.\begin{matrix} & C-\alpha_{i}-\mu_{i}=0 & \\ & \alpha_{i} \geq 0(i=1,2, \dots, m) & \\ & \mu_{i} \geq 0(i=1,2, \dots, m) & \end{matrix}\right\}\Rightarrow 0 \leq \alpha_{i} \leq C$

核函数

而对于非线性的情况，SVM 的处理方法是选择一个核函数 $K (x, z)$ ，通过将数据映射到高维空间，来解决在原始空间中线性不可分的问题。
在这里插入图片描述
SVM的目标函数变成：
$\underbrace{\min }_{\alpha} \frac{1}{2} \sum_{i=1, j=1}^{m} \alpha_{i} \alpha_{j} y_{i} y_{j} K\left(x_{i}, x_{j}\right)-\sum_{i=1}^{m} \alpha_{i}$

$s.t.\ \sum_{i=1}^{m} \alpha_{i} y_{i}=0$

$\leq \alpha_{i} \leq C$

$K\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right)=\left\langle\phi\left(\boldsymbol{x}_{i}\right), \phi\left(\boldsymbol{x}_{j}\right)\right\rangle=\phi\left(\boldsymbol{x}_{i}\right)^{\mathrm{T}} \phi\left(\boldsymbol{x}_{j}\right)$

$\qquad\qquad\qquad\qquad\qquad\qquad$ $\phi(x_i)$ 为 $x$ 在低维特征空间到高维特征空间的映射
在这里插入图片描述

SMO算法

SMO算法：序列最小最优化（sequential minimal optimization，SMO）算法。
SMO算法要解的问题是一个凸二次规划的对偶问题，变量是拉格朗日乘子，一个变量 $\alpha_{i}$ 对应于一个样本点 $x_i,y_i)$ ；变量的总数等于训练样本容量m。
$\underbrace{\min }_{\alpha} \frac{1}{2} \sum_{i=1, j=1}^{m} \alpha_{i} \alpha_{j} y_{i} y_{j} K\left(x_{i}, x_{j}\right)-\sum_{i=1}^{m} \alpha_{i}$

$s.t.\ \sum_{i=1}^{m} \alpha_{i} y_{i}=0$

$\leq \alpha_{i} \leq C$
SMO算法是一种启发式算法,：如果所有变量的解都满足此最优化问题的KKT条件（Karush-Kuhn-Tucker conditions），那么这个最优化问题的解就得到了。因为KKT条件是该最优化问题的充分必要条件。否则，选择两个变量，固定其他变量，针对这两个变量构建一个二次规划问题。这个二次规划问题关于这两个变量的解应该更接近原始二次规划问题的解，因为这会使得原始二次规划问题的目标函数值变得更小。重要的是，这时子问题可以通过解析方法求解，这样就可以大大提高整个算法的计算速度。子问题有两个变量，一个是违反KKT条件最严重的那一个，另一个由约束条件自动确定。如此，SMO算法将原问题不断分解为子问题并对子问题求解，进而达到求解原问题的目的。

选择变量 $\alpha_1,\alpha_2$ ，固定 $\alpha_{3}, \alpha_{4}, \dots, \alpha_{m}$ ，目标函数变为：
$\underset{\alpha_{1}, \alpha_{1}}{\min } \frac{1}{2} K_{11} \alpha_{1}^{2}+\frac{1}{2} K_{22} \alpha_{2}^{2}+y_{1} y_{2} K_{12} \alpha_{1} \alpha_{2}-\left(\alpha_{1}+\alpha_{2}\right)+y_{1} \alpha_{1} \sum_{i=3}^{m} y_{i} \alpha_{i} K_{i 1}+y_{2} \alpha_{2} \sum_{i=3}^{m} y_{i} \alpha_{i} K_{i 2}$

$\ \ \alpha_{1} y_{1}+\alpha_{2} y_{2}=-\sum_{i=3}^{m} y_{i} \alpha_{i}=\zeta$

$\leq \alpha_{i} \leq C\qquad i=1,2$

分析约束条件，所有的 $\alpha_1,\alpha_2$ 都要满足约束条件，且 $y_1,y_2$ 均只能取值1或者-1，然后在约束条件下求最小。
$\alpha_{1} y_{1}+\alpha_{2} y_{2}=-\sum_{i=3}^{m} y_{i} \alpha_{i}=\zeta$

$\leq \alpha_{i} \leq C\qquad i=1,2$
有四种情况，画出图形分析（横轴为 $\alpha_1$ ,纵轴为 $\alpha_2$ ）：
$s.t.\ \ \alpha_{1} y_{1}+\alpha_{2} y_{2}=-\sum_{i=3}^{N} y_{i} \alpha_{i}=\zeta$

$\leq \alpha_{1} \leq C，0 \leq \alpha_{2} \leq C,$

情况一： $y_1 = 1,y_2 =1，\alpha_1+ \alpha_2 = \zeta$

在这里插入图片描述
① $0<\zeta<C：0 \leq \alpha_{1} \leq \zeta，0 \leq \alpha_{2} \leq\zeta$ .
② $c<\zeta<2C：\zeta-C \leq \alpha_1\leq C,\zeta-C \leq \alpha_2\leq C$
将 $\alpha_{2}^{o l d}+\alpha_{1}^{o l d} = \zeta$ 代入①，②得：
$\left.\begin{matrix} & 0 \leq \alpha_{2} \leq \alpha_{1}^{\text { old }}+\alpha_{2}^{\text { old }}& \\ & \alpha_{1}^{\text { old }}+\alpha_{2}^{\text { old }} -C\leq \alpha_2 \leq C& \end{matrix}\right\}$

$\Rightarrow \max \left(0, \alpha_{2}^{o l d}+\alpha_{1}^{o l d}-C\right) \leq \alpha_2 \leq \min \left(C, \alpha_{2}^{o l d}+\alpha_{1}^{o l d}\right)$

情况二： $y_1 =-1,y_2 =-1，\alpha_1+ \alpha_2 =- \zeta$

在这里插入图片描述
① $0<-\zeta<C：0 \leq \alpha_{1} \leq - \zeta，0 \leq \alpha_{2} \leq - \zeta$ .
② $c<-\zeta<2C：-\zeta-C \leq \alpha_1\leq C, - \zeta-C \leq \alpha_2\leq C$
将 $\alpha_{2}^{o l d}+\alpha_{1}^{o l d} = -\zeta$ 代入①，②得：
$\left.\begin{matrix} & 0 \leq \alpha_{2} \leq \alpha_{1}^{\text { old }}+\alpha_{2}^{\text { old }}& \\ & \alpha_{1}^{\text { old }}+\alpha_{2}^{\text { old }} -C\leq \alpha_2 \leq C& \end{matrix}\right\}$
$\Rightarrow \max \left(0, \alpha_{2}^{o l d}+\alpha_{1}^{o l d}-C\right) \leq \alpha_2 \leq \min \left(C, \alpha_{2}^{o l d}+\alpha_{1}^{o l d}\right)$

情况三： $y_1 = 1,y_2 =-1，\alpha_1- \alpha_2 = \zeta$

在这里插入图片描述
① $0<-\zeta<C：0 \leq \alpha_{1} \leq C+ \zeta，- \zeta \leq \alpha_{2} \leq C$ .
② $0<\zeta<C：\zeta \leq \alpha_1\leq C, 0 \leq \alpha_2\leq C- \zeta$
将 $\alpha_{2}^{o l d}+\alpha_{1}^{o l d} = -\zeta$ 代入①，②得：
$\left.\begin{matrix} & 0 \leq \alpha_{2} \leq \alpha_{1}^{\text { old }}+\alpha_{2}^{\text { old }}& \\ & \alpha_{1}^{\text { old }}+\alpha_{2}^{\text { old }} -C\leq \alpha_2 \leq C& \end{matrix}\right\}$
$\Rightarrow \max \left(0, \alpha_{2}^{o l d}-\alpha_{1}^{o l d}\right) \leq \alpha_2 \leq \min \left(C, \alpha_{2}^{o l d}-\alpha_{1}^{o l d} + C \right)$

情况四： $y_1 =-1,y_2 =1，\alpha_1+ \alpha_2 = - \zeta$

在这里插入图片描述
① $0<\zeta<C：0 \leq \alpha_{1} \leq C- \zeta，\zeta \leq \alpha_{2} \leq C$ .
② $0<-\zeta<C：-\zeta \leq \alpha_1\leq C, 0 \leq \alpha_2\leq C + \zeta$
将 $\alpha_{2}^{o l d}-\alpha_{1}^{o l d} = -\zeta$ 代入①，②得：
$\left.\begin{matrix} & 0 \leq \alpha_{2} \leq \alpha_{1}^{\text { old }}+\alpha_{2}^{\text { old }}& \\ & \alpha_{1}^{\text { old }}+\alpha_{2}^{\text { old }} -C\leq \alpha_2 \leq C& \end{matrix}\right\}$
$\Rightarrow \max \left(0, \alpha_{2}^{o l d}-\alpha_{1}^{o l d}\right) \leq \alpha_2 \leq \min \left(C, \alpha_{2}^{o l d}-\alpha_{1}^{o l d} + C \right)$

假设最初的可行解为 $\alpha_{2}^{o l d},\alpha_{1}^{o l d}$ ，最优解为 $\alpha_{2}^{new},\alpha_{1}^{new}$ ,并且假设在沿着约束方向未经剪辑时 $\alpha_2$ 的最优解为 $\alpha_{2}^{new,unc}$ 。由于 $\alpha_{2}^{\text { new }}$ 满足 $\leqslant \alpha_{i} \leqslant C$ ，所以，最优值 $\alpha_{2}^{new}$ 的取值范围必须满足条件：
$\leqslant \alpha_{2}^{\mathrm{new}} \leqslant H$
若 $y_1 = y_2$ :
$L=\max \left(0, \alpha_{2}^{\text { old }}+\alpha_{1}^{\text { old }}-C\right), \quad H=\min \left(C, \alpha_{2}^{\text { old }}+\alpha_{1}^{\text { old }}\right)$
若 $y_1 != y_2$ :
$L=\max \left(0, \alpha_{2}^{\text { old }}-\alpha_{1}^{\text { old }}\right), \quad H=\min \left(C, C+\alpha_{2}^{\text { old }}-\alpha_{1}^{\text { old }}\right)$

最终的 $\alpha_2^{new}$ 为：
$\alpha_{2}^{n e w}=\left\{\begin{array}{ll}{H} & {\alpha_{2}^{n e w, u n c}>H} \\ {\alpha_{2}^{n e w, u n c}} & {L \leq \alpha_{2}^{n e w, u n c} \leq H} \\ {L} & {\alpha_{2}^{n e w, u n c}<L}\end{array}\right.$
无约束时 $\alpha_{2}^{n e w, u n c}的解：$
$\alpha_{2}^{\text { new, unc }}=\alpha_{2}^{\text { old }}+\frac{y_{2}\left(E_{1}-E_{2}\right)}{\eta}$
其中：
$\eta=K_{11}+K_{22}-2 K_{12}=\left\|\Phi\left(x_{1}\right)-\Phi\left(x_{2}\right)\right\|^{2}$
$\Phi(\mathrm{x})$ 是输入空间到特征空间的映射。
$E_i$ 为函数 $g (x)$ 对输入 $x_i$ 的预测值与真实输出 $y_i$ 之差。
$g(x)=\sum_{i=1}^{N} \alpha_{i} y_{i} K\left(x_{i}, x\right)+b$

$E_{i}=g\left(x_{i}\right)-y_{i}=\left(\sum_{j=1}^{N} \alpha_{j} y_{j} K\left(x_{j}, x_{i}\right)+b\right)-y_{i} \quad i=1,2$
证明 $\alpha_{2}^{n e w, u n c}$ 的解:
　引进记号

$v_{i}=\sum_{j=3}^{N} \alpha_{j} y_{j} K\left(x_{i}, x_{j}\right)=g\left(x_{i}\right)-\sum_{j=1}^{2} \alpha_{j} y_{j} K\left(x_{i}, x_{j}\right)-b \quad i=1,2$
目标函数 $W(\alpha_1,\alpha_2)$ 可写成:
$\begin{aligned} W\left(\alpha_{1}, \alpha_{2}\right)=& \frac{1}{2} K_{11} \alpha_{1}^{2}+\frac{1}{2} K_{22} \alpha_{2}^{2}+y_{1} y_{2} K_{12} \alpha_{1} \alpha_{2} \\ &-\left(\alpha_{1}+\alpha_{2}\right)+y_{1} v_{1} \alpha_{1}+y_{2} v_{2} \alpha_{2} \end{aligned}$
因为:
$\mathrm{\alpha}_{1} \mathrm{y}_{1}=\zeta-\mathrm{\alpha}_{2} \mathrm{y}_{2}$

$y_{i}^{2}=1$
所以：
$\alpha_{1}=\left(\zeta-y_{2} \alpha_{2}\right) y_{1}$

将 $\alpha_1$ 代入 $W(\alpha_1,\alpha_2)$ ,得到只含有 $\alpha_2$ 的函数的目标函数
$\begin{aligned} W\left(\alpha_{2}\right)=& \frac{1}{2} K_{11}\left(\zeta-\alpha_{2} y_{2}\right)^{2}+\frac{1}{2} K_{22} \alpha_{2}^{2}+y_{2} K_{12}\left(\zeta-\alpha_{2} y_{2}\right) \alpha_{2} \\ &-\left(\zeta-\alpha_{2} y_{2}\right) y_{1}-\alpha_{2}+v_{1}\left(\zeta-\alpha_{2} y_{2}\right)+y_{2} v_{2} \alpha_{2} \end{aligned}$
对 $\alpha_2$ 求导数:
$\begin{aligned}\left(K_{11}+K_{22}-2 K_{12}\right) \alpha_{2}=& y_{2}\left(y_{2}-y_{1}+\zeta K_{11}-\zeta K_{12}+v_{1}-v_{2}\right) \\=& y_{2}\left[y_{2}-y_{1}+\zeta K_{11}-\zeta K_{12}+\left(g\left(x_{1}\right)-\sum_{j=1}^{2} y_{j} \alpha_{j} K_{1 j}-b\right)\right.\\ &-\left(g\left(x_{2}\right)-\sum_{j=1}^{2} y_{j} \alpha_{j} K_{2 j}-b\right) ] \end{aligned}$
将 $\zeta=\alpha_{1}^{\text { old }} \mathrm{y}_{1}+\alpha_{2}^{\text { old }} \mathrm{y}_{2}$ 代入，得到:
$\begin{aligned}\left(K_{11}+K_{22}-2 K_{12}\right) \alpha_{2}^{\text { new, unc }} &=y_{2}\left(\left(K_{11}+K_{22}-2 K_{12}\right) \alpha_{2}^{\text { old }} y_{2}+y_{2}-y_{2}-y\left(x_{1}\right)-g\left(x_{2}\right)\right) \\ &=\left(K_{11}+K_{22}-2 K_{12}\right) \alpha_{2}^{\text { old }}+y_{2}\left(E_{1}-E_{2}\right) \end{aligned}$
将 $\eta=\mathrm{K}_{11}+\mathrm{K}_{22}-2 \mathrm{K}_{12}$ 代入，得到：
$\alpha_{2}^{\mathrm{new}, \mathrm{unc}}=\alpha_{2}^{\mathrm{old}}+\frac{y_{2}\left(E_{1}-E_{2}\right)}{\eta}$
要使其满足不等式约束必须将其限制在区间 $[\mathrm{L}, \mathrm{H}]$ ，从而得到 $\alpha_{2}^{\mathrm{new}}$ 的表达式，由于 $\alpha_{1} y_{1}+\alpha_{2} y_{2}=-\sum_{i=3}^{N} y_{i} \alpha_{i}=\zeta$ ，从而得到 $\alpha_{1}^{\text { new }}=\alpha_{1}^{\text { old }}+y_{1} y_{2}\left(\alpha_{2}^{\text { old }}-\alpha_{2}^{\text { new }}\right)$ 。

两个变量的选择

SMO算法在每个子问题中选择两个变量优化，其中至少一个变量是违反KKT条件的。

第1个变量的选择(外层循环)：
- 违背KKT条件最严重的样本点，即：检验训练样本点 $x_i，y_i)$ 是否满足KKT条件。
  $\begin{array}{c}{\alpha_{i}=0 \Leftrightarrow y_{i} g\left(x_{i}\right) \geqslant 1} \\ {0<\alpha_{i}<C \Leftrightarrow y_{i} g\left(x_{i}\right)=1} \\ {\alpha_{i}=C \Leftrightarrow y_{i} g\left(x_{i}\right) \leqslant 1}\end{array}$
其中： $g\left(x_{i}\right)=\sum_{j=1}^{N} \alpha_{j} y_{j} K\left(x_{i}, x_{j}\right)+b$
在检验过程中，外层循环首先遍历所有满足条件 $0<\alpha_{i}<C$ 的样本点，即在间隔边界上的支持向量点，检验它们是否满足KKT条件。如果这些样本点都满足KKT条件，那么遍历整个训练集，检验它们是否满足KKT条件。
第1个变量的选择(内层循环)
- 希望能使第二个变量有足够大的变化，即最大化 $\left|\mathrm{E}_{1}-\mathrm{E}_{2}\right|$ 。此外，为了节省计算时间，将所有 $E_i$ 值保存在一个列表中。
- 如果内层循环通过以上方法选择的 $\alpha_2$ 不能使目标函数有足够的下降，那么采用以下启发式规则继续选择 $\alpha_2$ 。遍历在间隔边界上的支持向量点，依次将其对应的变量作为 $\alpha_2$ 试用，直到目标函数有足够的下降。若找不到合适的 $\alpha_2$ ，那么遍历训练数据集；若仍找不到合适的 $\alpha_2$ ，则放弃第1个 $\alpha_1$ ，再通过外层循环寻求另外的 $\alpha_1$ 。

计算阈值b

当 $0<\alpha_{1}^{n e w}<C$ 时：
由KKT条件：
$\sum_{i=1}^{N} \alpha_{i} y_{i} K_{i 1}+b=y_{1}$
得： $b_{1}^{\mathrm{new}}=y_{1}-\sum_{i=3}^{N} \alpha_{i} y_{i} K_{i 1}-\alpha_{1}^{\mathrm{new}} y_{1} K_{11}-\alpha_{2}^{\mathrm{naw}} y_{2} K_{21}$
又： $E_{1}=\sum_{i=3}^{N} \alpha_{i} y_{i} K_{i 1}+\alpha_{1}^{\text { old }} y_{1} K_{11}+\alpha_{2}^{\text { old }} y_{2} K_{21}+b^{\text { old }}-y_{1}$
所以： $y_{1}-\sum_{i=3}^{N} \alpha_{i} y_{i} K_{i 1}=-E_{1}+\alpha_{1}^{\text { old }} y_{1} K_{11}+\alpha_{2}^{\text { old }} y_{2} K_{21}+b^{\text { old }}$
因此：
$b_{1}^{\mathrm{new}}=-E_{1}-y_{1} K_{11}\left(\alpha_{1}^{\mathrm{new}}-\alpha_{1}^{\mathrm{old}}\right)-y_{2} K_{21}\left(\alpha_{2}^{\mathrm{new}}-\alpha_{2}^{\mathrm{old}}\right)+b^{\mathrm{old}}$
当 $0<\alpha_{2}^{n e w}<C$ 时：
$b_{2}^{n e w}=-E_{2}-y_{1} K_{12}\left(\alpha_{1}^{n e w}-\alpha_{1}^{o l d}\right)-y_{2} K_{22}\left(\alpha_{2}^{n e w}-\alpha_{2}^{o l d}\right)+b^{o l d}$
最终的 $b_{2}^{n e w}$ 为：
$b^{n e w}=\frac{b_{1}^{n e w}+b_{2}^{n e w}}{2}$
更新 $E_i$
$E_{i}=\sum_{S} y_{j} \alpha_{j} K\left(x_{i}, x_{j}\right)+b^{n e w}-y_{i}$
其中，S是所有支持向量 $x_j$ 的集合。

SMO算法总结

输入：训练数据集 $\mathrm{T}=\left\{\left(\mathrm{x}_{1}, \mathrm{y}_{1}\right),\left(\mathrm{x}_{2}, \mathrm{y}_{2}\right), \ldots,\left(\mathrm{x}_{\mathrm{N}}, \mathrm{y}_{\mathrm{N}}\right)\right\}$ ，其中x为n维特征向量，y为二元输出，值为1，或者-1.精度e
输出：近似解α

取初值 $\alpha^{0}=0, k=0$
选取优化变量 $\alpha_{1}^{(k)}, \alpha_{2}^{(k)}$
求新的 $\alpha_{2}^{k+1, u n c}$
求出 $\alpha_{2}^{k+1}$
求出 $\alpha_{1}^{k+1}$
计算 $b^{k+1}$ 和 $E_i$
在精度e范围内检查是否满足如下的终止条件
如果满足则结束，返回 $\alpha^{k+1}$ ,否则转到步骤2

参考资料：

周志华《机器学习》
李航《统计学习方法》
刘建平博客

黑桃5200

关注

3
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
手推SVM算法(含SMO证明）

函数间隔γ^=y(wTx+b)=yf(x)\hat{\gamma}=y\left(w^{T} x+b\right)=y f(x)γ^=y(wTx+b)=yf(x)几何间隔γ~=yγ^=γ^∥w∥=y(wTx+b)∥w∥\tilde{\gamma}=y \hat{\gamma}=\frac{\hat{\gamma}}{\|w\|} = \frac{y\left(w^{T} x+b\right...
复制链接

扫一扫

专栏目录