支持向量机公式推导（support vector machine，SVM）

最新推荐文章于 2023-02-07 10:16:43 发布

ywm_up

最新推荐文章于 2023-02-07 10:16:43 发布

阅读量691

点赞数

文章标签：支持向量机机器学习人工智能

原文链接：https://blog.csdn.net/Oscar6280868/article/details/88391530

版权

支持向量机学习的基本思想是求解能够正确划分训练集并且几何间隔最大的分离超平面。对线性可分的训练数据集而言，线性可分分离超平面有无穷多个（等价于感知机），但是几何间隔最大的分离超平面是唯一的。这里的间隔最大化又称为硬间隔最大化（与训练数据集近似线性可分时的软间隔最大化相对应）。

间隔最大化的直观解释是：对训练数据集找到几何间隔最大的超平面意味着以充分大的确信度对训练数据进行分类。也就是说不仅将正负实例点分开，而且对最难分的实例点（离超平面最近的点）也有足够大的确信度将它们分开。这样的超平面应该对未知的新实例有很好的分类预测能力。

请添加图片描述

如上图所示，有一堆训练数据的正负样本，标记为： $\{x_i, y_i\}, i = 1, ..., l, y_i ∈\{-1, 1\}, x\in {{\mathbb{R}}^{d}}$ ，假设有一个超平面H： $w x + b = 0$ ，可以把这些样本正确无误地分割开来，同时存在两个平行于H的超平面H1和H2：
$\begin{aligned} & wx+b=1 \\ & wx+b=-1 \\ \end{aligned}$

使离H最近的正负样本刚好分别落在H1和H2上，这样的样本就是支持向量机。那么其他所有的训练样本都将位于H1和H2之外，也就是满足如下约束：
$\begin{aligned} & w:wx+b\ge 1 \ \ \ \ for \ \ \ \ y_i = 1\\ & w:wx+b\le -1 \ \ \ \ for \ \ \ \ y_i = -1\\ \end{aligned}$

写成统一的式子就是：
$y_i(w·x_i+b) - 1 ≥ 0 \ \ \ \ (1)$
而超平面H1和H2之间的距离可知为：
$margin=\frac{2}{||w||}$

SVM的任务就是寻找一个超平面H把样本无误地分割成两部分，并且使H1和H2的距离最大。要找到这样的超平面，只需最大化间隔 margin们也就是最小化 $w||^2$ 。于是可以构造如下的条件极值问题：
$\left\{ \begin{matrix} \min \frac{||w|{{|}^{2}}}{2} \\ st.\text{ }{{\text{y}}_{i}}({{w}_{i}}\text{ }\!\!\cdot\!\!\text{ }{{x}_{i}}+b)-1\ge 0\text{ (2)} \\ \end{matrix} \right.$

对于不等式约束的条件极值问题，可以用拉格朗日方法求解。而拉格朗日方程的构造规则是：用约束方程乘以非负的拉格朗日系数，然后再从目标函数中减去。于是得到拉格朗日方程如下：
$\begin{aligned} L(w,b,\alpha_i ) & =\frac{1}{2}||w|{{|}^{2}}-\sum\limits_{i=1}^{l}{{{\alpha }_{i}}({{y}_{i}}(w\text{ }\!\!\cdot\!\!\text{ }{{\text{x}}_{i}}+b)-1)} \\ & =\frac{1}{2}||w|{{|}^{2}}-\sum\limits_{i=1}^{l}{{{\alpha }_{i}}{{y}_{i}}(w\text{ }\!\!\cdot\!\!\text{ }{{\text{x}}_{i}}+b)}+\sum\limits_{i=1}^{l}{{{\alpha }_{i}}} \ \ \ \ (3)\\ \end{aligned}$

其中
${{\alpha }_{i}}\ge 0 \ \ \ \ (4)$

那么我们要处理的规划问题就变为：
$\underset{w,b}{\mathop{\min }}\,\underset{{{\alpha }_{i}}\ge 0}{\mathop{\max }}\,L(w,b,{{a}_{i}})\ \ \ \ (5)$

上式才是严格的不等式约束的拉格朗日条件极值的表达式。对于这一步的变换，很多文章都没有多做表述，或者理解有偏差，从而影响了读者后续的推演。在此我将详细地一步步推导，以解困惑。

（5）式是一个凸规划问题，其意义是先对α求偏导，令其等于0消掉α，然后再对w和b求L的最小值。要直接求解（5）式是有难度的，通过消去拉格朗日系数来化简方程，对我们的问题无济于事。所幸这个问题可以通过拉格朗日对偶问题来解决，为此我们把（5）式做一个等价变换：
$\underset{w,b}{\mathop{\min }}\,\underset{{{\alpha }_{i}}\ge 0}{\mathop{\max }}\,L(w,b,{{a}_{i}})=\underset{{{\alpha }_{i}}\ge 0}{\mathop{\max }}\,\underset{w,b}{\mathop{\min }}\,L(w,b,{{a}_{i}})$
上式即为对偶变换，这样就把这个凸优化问题转换成了对偶问题：
$\underset{{{\alpha }_{i}}\ge 0}{\mathop{\max }}\,\underset{w,b}{\mathop{\min }}\,L(w,b,{{a}_{i}}) \ \ \ \ (6)$

其意义是：原凸规划问题可以转化为先对w和b求偏导，令其等于0消掉w和b，然后再对α求L的最大值。下面我们就来求解（6）式，为此我们先计算w和b的偏导数。由（3）式有：
$\begin{aligned} & \frac{\partial L(w,b,{{a}_{i}})}{\partial w}=w-\sum\limits_{i=1}^{l}{{{\alpha }_{i}}{{y}_{i}}{{x}_{i}}} \\ & \frac{\partial L(w,b,{{a}_{i}})}{\partial b}=-\sum\limits_{i=1}^{l}{{{\alpha }_{i}}{{y}_{i}}} \\ \end{aligned} \ \ \ \ (7)$

为了让L在w和b上取到最小值，令（7）式的两个偏导数分别为0，于是得到：
$\begin{aligned} & \sum\limits_{i=1}^{l}{{{\alpha }_{i}}{{y}_{i}}{{x}_{i}}}=w \\ & \sum\limits_{i=1}^{l}{{{\alpha }_{i}}{{y}_{i}}=0} \\ \end{aligned} \ \ \ \ (8)$

将（8）代回（3）式，可得：
$\begin{aligned} \underset{w,b}{\mathop{\min }}\,L(w,b,{{\alpha }_{i}}) & =\frac{1}{2}||w|{{|}^{2}}-w\cdot \sum\limits_{i=1}^{l}{{{\alpha }_{i}}{{y}_{i}}{{x}_{i}}}-b\sum\limits_{i=1}^{l}{{{\alpha }_{i}}{{y}_{i}}}+\sum\limits_{i=1}^{l}{{{\alpha }_{i}}} \\ & =\frac{1}{2}||w|{{|}^{2}}-w\cdot w-b\cdot 0+\sum\limits_{i=1}^{l}{{{\alpha }_{i}}} \\ & =\sum\limits_{i=1}^{l}{{{\alpha }_{i}}}-\frac{1}{2}||w|{{|}^{2}} \\ & =\sum\limits_{i=1}^{l}{{{\alpha }_{i}}}-\frac{1}{2}\sum\limits_{i=1}^{l}{\sum\limits_{j=1}^{l}{{{\alpha }_{i}}}}{{\alpha }_{j}}{{y}_{i}}{{y}_{j}}({{x}_{i}}\cdot {{x}_{j}}) \\ \end{aligned} \ \ \ \ (9)$

再把（9）代入（6）式有：
$\underset{\alpha \ge 0}{\mathop{\max }}\,\underset{w,b}{\mathop{\min }}\,L(w,b,{{\alpha }_{i}})=\underset{{{\alpha }_{i}}\ge 0}{\mathop{\max }}\,(\sum\limits_{i=1}^{l}{{{\alpha }_{i}}}-\frac{1}{2}\sum\limits_{i=1}^{l}{\sum\limits_{j=1}^{l}{{{\alpha }_{i}}}}{{\alpha }_{j}}{{y}_{i}}{{y}_{j}}({{x}_{i}}\cdot {{x}_{j}})) \ \ \ \ (10)$

考虑到（8）式，我们的对偶问题就变为：
$\left\{ \begin{matrix} \begin{matrix} \underset{{{\alpha }_{i}}\ge 0}{\mathop{\max }}\,\{\sum\limits_{i=1}^{l}{{{\alpha }_{i}}}-\frac{1}{2}\sum\limits_{i=1}^{l}{\sum\limits_{j=1}^{l}{{{\alpha }_{i}}}}{{\alpha }_{j}}{{y}_{i}}{{y}_{j}}({{x}_{i}}\cdot {{x}_{j}})\} \\ st.\sum\limits_{i=1}^{l}{{{\alpha }_{i}}{{y}_{i}}=0} \\ \end{matrix} \\ {{\alpha }_{i}}\ge 0 \\ \end{matrix} \right. \ \ \ \ (11)$

核函数

常用核函数

1. 线性核函数

线性核函数（Linear Kernel）其实就是我们的原公式，表达式为：
$K(x,z)=x\cdot z$
也就是说，线性可分SVM我们可以和线性不可分SVM归为一类，区别仅仅在于线性可分SVM用的是线性核函数。

2. 多项式合函数

多项式核函数（Polynomial Kernel）是线性不可分SVM常用的核函数之一，表达式为：
$K(x,z)={{(\gamma x\cdot z+r)}^{d}}$
其中， $\gamma ,r,d$ 都需要自己调参定义。

3. 高斯核函数

高斯核函数（Gaussian Kernel），在SVM中也称为径向基核函数（Radial Basis Function,RBF），它是非线性分类SVM最主流的核函数。libsvm默认的核函数就是它。表达式为：
$K(x,z)=\exp (-\gamma ||x-z|{{|}^{2}})$
其中， $\gamma$ 大于 0，需要自己调参定义。

4. sigmoid 核函数

Sigmoid核函数（Sigmoid Kernel）也是线性不可分SVM常用的核函数之一，表达式为：
$K(x,z)=\tanh (\gamma x\cdot z+r)$
其中， $\gamma ,r$ 都需要自己调参定义

我们假设整个问题的最优解是 $w^*, b^*, \alpha^*$ ，接下来进行求解。

求解 $\alpha^*$

对于（11）式
$\left\{ \begin{matrix} \begin{matrix} \underset{{{\alpha }_{i}}\ge 0}{\mathop{\max }}\,(\sum\limits_{i=1}^{l}{{{\alpha }_{i}}}-\frac{1}{2}\sum\limits_{i=1}^{l}{\sum\limits_{j=1}^{l}{{{\alpha }_{i}}}}{{\alpha }_{j}}{{y}_{i}}{{y}_{j}}({{x}_{i}}\cdot {{x}_{j}})) \\ st.\sum\limits_{i=1}^{l}{{{\alpha }_{i}}{{y}_{i}}=0} \\ \end{matrix} \\ {{\alpha }_{i}}\ge 0 \\ \end{matrix} \right. \ \ \ \ (11)$

这个优化式子比较复杂，里面有 $l$ 个变量组成的向量 α 需要在目标函数极小化的时候求出。直接优化时很难的。这时候需要用 SMO 算法进行求解。

下面简单介绍一下 SMO 思想，不具体阐述公式推导，详细推导过程可以参考链接[4]

SMO算法则采用了一种启发式的方法。它每次只优化两个变量，将其他的变量都视为常数。由于 $\sum\limits_{i=1}^{l}{{{\alpha }_{i}}{{y}_{i}}=0}$ 。假如将 ${{\alpha }_{3}},{{\alpha }_{4}},...,{{\alpha }_{l}}$ 固定，那么 ${{\alpha }_{1}},{{\alpha }_{2}}$ 之间的关系也确定了。这样SMO算法将一个复杂的优化算法转化为一个比较简单的两变量优化问题。

最后可以求出 $\alpha^*$ 。

求解 $w^, b^$

需要指出的一点是，（2）式的条件极值问题能够转化为（5）式的凸规划问题，其中隐含着一个约束，即：
${{\alpha }_{i}}({{y}_{i}}(w\cdot {{x}_{i}}+b)-1)=0 \ \ \ \ (12)$

这个约束是这样得来的，如果（2）和（5）等效，必有：
$\underset{{{\alpha }_{i}}\ge 0}{\mathop{\max }}\,L(w,b,{{\alpha }_{i}})=\frac{1}{2}||w|{{|}^{2}}$

把（3）式代入上式中，得到：
$\begin{aligned} \frac{1}{2}||w|{{|}^{2}} & =\underset{{{\alpha }_{i}}\ge 0}{\mathop{\max }}\,\{\frac{1}{2}||w|{{|}^{2}}-\sum\limits_{i=1}^{l}{{{\alpha }_{i}}({{y}_{i}}(w\cdot {{x}_{i}}+b)-1)}\} \\ & =\frac{1}{2}||w|{{|}^{2}}-\underset{{{\alpha }_{i}}\ge 0}{\mathop{\min }}\,\{\sum\limits_{i=1}^{l}{{{\alpha }_{i}}({{y}_{i}}(w\cdot {{x}_{i}}+b)-1)}\} \\ \end{aligned}$

化简得到：
$\underset{{{\alpha }_{i}}\ge 0}{\mathop{\min }}\,\{\sum\limits_{i=1}^{l}{{{\alpha }_{i}}({{y}_{i}}(w\cdot {{x}_{i}}+b)-1)}\}=0 \ \ \ \ (13)$

又因为约束（1）和（4），有：
${{\alpha }_{i}}({{y}_{i}}(w\cdot {{x}_{i}}+b)-1)\ge 0$

所以要使（13）式成立，只有令： ${{\alpha }_{i}}({{y}_{i}}(w\cdot {{x}_{i}}+b)-1) = 0$ ，由此得到（12）式的约束。该约束的意义是：如果一个样本是支持向量，则其对应的拉格朗日系数非零；如果一个样本不是支持向量，则其对应的拉格朗日系数一定为0。由此可知大多数拉格朗日系数都是0。

接下来我们要用到上面求出的一些公式：
$\begin{aligned} & \sum\limits_{i=1}^{l}{{{\alpha }_{i}}{{y}_{i}}{{x}_{i}}}=w \ \ \ \ (8)\\ & {{\alpha }_{i}}({{y}_{i}}(w\cdot {{x}_{i}}+b)-1)=0 \ \ \ \ (11)\\ & {{\alpha }_{i}}\ge 0 \ \ \ \ (11) \\ & \underset{{{\alpha }_{i}}\ge 0}{\mathop{\max }}\,\{\sum\limits_{i=1}^{l}{{{\alpha }_{i}}}-\frac{1}{2}\sum\limits_{i=1}^{l}{\sum\limits_{j=1}^{l}{{{\alpha }_{i}}}}{{\alpha }_{j}}{{y}_{i}}{{y}_{j}}({{x}_{i}}\cdot {{x}_{j}})\} \ \ \ \ (12)\\ \end{aligned}$

由 KTT 条件可以退出不可能所有的 $\alpha_i$ 都是0，如果所有的 $\alpha_i$ 都是 0 的话，那么 $w^* = 0$ ，这显然是错误的，所以至少有一个 $\alpha > 0$ ，这个时候根据（11）可以得到：
${{y}_{i}}(w^*\cdot {{x}_{i}}+b^*) = 0 \ \ \ \ (14)$

将（8） $w^* = \sum\limits_{i=1}^{l}{{{\alpha^* }_{i}}{{y}_{i}}{{x}_{i}}}$ 代入（14）可以得到：
${{y}_{j}}(\sum\limits_{i=1}^{l}{{{\alpha^* }_{i}}{{y}_{i}}{{x}_{i}}}\cdot {{x}_{j}}+b^*) = 0$

要先把 b 解出来，先消除 $y_i$ ，因为 $y_i$ 为标签， $y_i = \pm 1$ ，所以 $y_i^2 = 1$ ，上式左右两边同时乘以 $y_i$ ，可以解出：
${{b}^{*}}={{y}_{j}}-\sum\limits_{i=1}^{l}{{{\alpha }^{*}}_{i}{{y}_{i}}({{x}_{i}}} {{x}_{j}})$