支持向量机（一）

最新推荐文章于 2021-11-22 11:48:00 发布

晨哥是个好演员

最新推荐文章于 2021-11-22 11:48:00 发布

阅读量1.2k

点赞数

分类专栏：机器学习文章标签：机器学习 SVM 支持向量机优化问题对偶

本文链接：https://blog.csdn.net/gc348342215/article/details/111147497

版权

机器学习专栏收录该内容

11 篇文章 2 订阅

订阅专栏

支持向量机

因为用 $k$ 对 $(\omega, b)$ 进行缩放后，即 $(\omega, b)$ 变为 $(k\omega, k\omega)$ ，样本 $x^{(n)}$ 到超平面距离不发生变化，也就是系数的改变对直线并无任何实质影响，所以不管 $k$ 是多少，距离 $\gamma^{(n)}$ 都是不会改变的。那么现在对最特殊的，也是最近距离的支持向量 $x_0$ ，我们要求出其最大距离，因为对于 $|\omega^Tx_0+b|$ 的缩放也好都不会改变直线的距离，因此我们通过 $k$ 的缩放使得恰好满足 $|\omega^Tx_0+b| = 1$ ，这里我们需要注意的是，此时的 $\omega$ 和 $b$ 为缩放调整后的 $\omega$ 和 $b$ ，当然你也可以令 $|\omega^Tx_0+b|$ 这个值为 $2, 3, 4 . . .$ 等等，这都无妨，我们另其为 $1$ ，主要也是为了方便，最终的目的是固定距离计算中的分子，来单独讨论分母对距离的影响。既然要固定变量，就把分子固定住，让分母去最小，就可以得到最大间距了。当我们固定了距离公式中的分子，此时支持向量与平面的距离为：
$d=\frac{1}{\|\omega\|}$

支持向量机为了最小化： $\|\omega\|$ ，目的就是为了最大化支持向量到平面的距离 $d$ 。

SVM处理线性问题

最小化

$\min\limits_{\omega,b}\left( \ \frac{1}{2}\|\omega\|^2\right)$

限制条件s.t.

$y_i\left[\omega^Tx_i+b\right] \geqslant 1$ （ $i = 1, 2, . . ., N$ ）

SVM处理非线性问题

最小化

$\min\limits_{\omega,b}\left[ \ \frac{1}{2}\|\omega\|^2+C\sum\limits_{i=1}^N\xi_i\right]$ （其中 $\xi_i$ 为松弛变量 $s l a c k v a r i a b l e$ ， $i = 1, 2, . . ., N$ ）

限制条件s.t.

$y_i\left[\omega^Tx_i+b\right] \geqslant 1-\xi_i$ （ $i = 1, 2, . . ., N$ ）
$\xi_i \geqslant 0$ （ $i = 1, 2, . . ., N$ ）

对于非线性优化问题，我们已知的是 $X_i,y_i$ ，要求的是 $w,b,\xi_i$

对于 $x_1 = \left[\begin{matrix}0\\0 \end{matrix}\right]\in C_1$ ， $x_1 = \left[\begin{matrix}1\\1 \end{matrix}\right]\in C_1，x_1 = \left[\begin{matrix}1\\0 \end{matrix}\right]\in C_2$ ， $x_1 = \left[\begin{matrix}0\\1 \end{matrix}\right]\in C_2$ ，我该如何将这四个向量分为两类呢？

首先我们定义这样的函数 $\varphi(x)：x=\left[\begin{matrix}a\\b\end{matrix}\right]\longrightarrow\varphi(x)=\left[\begin{matrix} a^2\\b^2\\a\\b\\ab \end{matrix}\right]$ ，我们可以看到 $\varphi(x)$ 实际上就是原向量所有元素相互乘积得到的更高维度的向量。

此时我们对 $x_1，x_2，x_3，x_4$ 拓展维度：
$\varphi(x_1)=\left[\begin{matrix} 0\\0\\0\\0\\0 \end{matrix}\right]，\varphi(x_2)=\left[\begin{matrix} 1\\1\\1\\1\\1 \end{matrix}\right]，\varphi(x_3)=\left[\begin{matrix} 1\\0\\1\\0\\0 \end{matrix}\right]，\varphi(x_4)=\left[\begin{matrix} 0\\1\\0\\1\\0 \end{matrix}\right]$

我们知道对于SVM处理非线性问题的限制条件为： $y_i(\omega^Tx_i+b) \geqslant 1-\xi_i$ （ $i = 1, 2, . . ., N$ ），此时当 $x_i$ 拓展维度以后即变为： $y_i\left[\omega^T\varphi(x_i)+b\right] \geqslant 1-\xi_i$ （ $i = 1, 2, . . ., N$ ），需要注意的是 $w$ 的维度也会拓展，与 $\varphi(x_i)$ 相同。那么为了将 $x_1，x_2，x_3，x_4$ 进行二分类，我们目前的问题是如何寻找一个适合的 $w$ 和 $b$ 来使得满足SVM的限制条件。这样的 $w$ 和 $b$ 有很多，我们给出其中一个：
$\omega = \left[\begin{matrix}-1 \\ -1\\ -1\\ -1\\ 6\end{matrix}\right]$ ， $b = 1$ ，带入到限制条件得到： $\left\{\begin{array}{lr} \omega^T\varphi(x_1)+b=1>0\\\omega^T\varphi(x_2)+b=3>0 \\ \omega^T\varphi(x_3)+b = -1<0 \\ \omega^T\varphi(x_4) +b=-1<0 \end{array}\right.$ ，我们可以看出 $x 1 ， x 2$ 被分到 $C_1$ 类， $x 3 ， x 4$ 被分到 $C_2$ 类。

「QUESTION」：那么我们如何选取 $\varphi(x)$ 呢？
我们可以不知道无限维映射 $\varphi(x)$ 的显式表达，我们只要知道一个核函数（Kernel Function）
$K(x_1, x_2) = \varphi(x_1)^T\varphi(x_2)$ 则 $y_i\left[\omega^T\varphi(x_i)+b\right] \geqslant 1-\xi_i$ （ $i = 1, 2, . . ., N$ ）这个优化式仍然可解，其中 $\varphi(x_1)$ 和 $\varphi(x_2)$ 均为无限维向量。这同样给我们带来了一个新的问题，我们该如何将 $\varphi(x_i)$ 替换成核函数 $K(x_1, x_2)$ 呢？我们先来看看常见的几种核函数，再了解满足核函数拆分的充要条件（Mercer’s Theorem）。

常见的几种核函数

线性核： $K(x_1,x_2)=x_1^Tx_2$ 。
高斯核： $K(x_1, x_2) = e^{-\frac{||x_1-x_2||^2}{2\sigma^2}} = \varphi(x_1)^T\varphi(x_2)$ ，可拆成两个无限维度的 $\varphi(x)$ ，但必须满足某种条件，可自己尝试（泰勒展开）。
多项式核： $K(x_1, x_2) = (x_1^Tx_2+1)^d = \varphi(x_1)^T\varphi(x_2)$ ，其中 $d$ 为多项式的阶数，可拆成两个有限维度的 $\varphi(x)$ ，同样需满足某种条件，可自己尝试看 $\varphi(x_i)$ 的维度和 $d$ 维度的关系。
Sigmoid核： $K(x_1, x_2) = tanh(\beta_1x_1^Tx_2 + \beta_2)$ 。

Mercer’s Theorem

上面提到 $K(x_1, x_2)$ 拆成 $\varphi(x_1)^T\varphi(x_2)$ 需满足某种条件（泛函分析），那 $K(x_1, x_2) = \varphi(x_1)^T\varphi(x_2)$ 的充要条件为：

$K(x_1, x_2) = K(x_2, x_1)$ （交换性）
$\forall c_i, x_i (i=1, 2, 3, ..., N)$ ，有： $\sum\limits_{i=1}^N\sum\limits_{j=1}^Nc_ic_jK(x_i, x_j) \geqslant 0$ ，其中 $c_i$ 为常数， $x_i$ 为向量（半正定性）

补充知识：优化理论

原问题（Prime Problem）（非常普适）

最小化：

$\min f(\omega)$

限制条件s.t.：

$g_i(\omega) \leqslant 0 (i=1,2,3,...,K)$
$h_i(\omega) = 0（i=1,2,3,...,M）$

对偶问题（Dual Problem）

定义： $L(\omega, \alpha, \beta) = f(\omega)+\sum\limits_{i=1}^K\alpha_ig_i(\omega)+\sum\limits_{i=1}^M\beta_ih_i(\omega)=f(\omega)+\alpha^Tg(\omega)+\beta^Th(\omega)$
其中 $\alpha$ 是一个 $K$ 维向量，与 $g_i(\omega) \leqslant 0$ 的多项式个数相同； $\beta$ 是一个 $M$ 维向量，与 $h_i(\omega) = 0$ 的多项式个数相同。式子最右侧 $g(\omega) = \left[\begin{matrix}g_1(\omega) \\ g_2(\omega) \\...\\g_K(\omega)\end{matrix}\right]$ ，然后 $h(\omega) = \left[\begin{matrix}h_1(\omega) \\ h_2(\omega) \\...\\h_M(\omega)\end{matrix}\right]$ 。

对偶问题的定义

最大化：

$\max\left[\Theta(\alpha, \beta) = \inf\limits_{all(\omega)}\left[L(\omega, \alpha, \beta)\right]\right]$ ，其中 $\inf$ 表示求最小值，在什么情况下求最小值呢？在限定 $\alpha$ 和 $\beta$ 的前提下，遍历所有 $\omega$ 后，求得最小的 $L(\omega, \alpha, \beta)$ ，因此每确认一个 $\alpha$ 和 $\beta$ 我都能求出一个最小值，在众多最小值中选取最大的 $\Theta(\alpha, \beta)$ 。

限制条件s.t.： $\alpha_i \geqslant 0（i=1,2,3,...,K）$ ，或按照向量的写法 $\alpha \geqslant 0$ ，其中 $\alpha = \left[\begin{matrix}\alpha_1 \\ \alpha_2\\ ..\\\alpha_i\\..\\\alpha_K\end{matrix}\right]$

接下来我们需要解决原问题和对偶问题的关系，但了解他们关系之前我们还需要知道一个定理，定理如下。

定理：如果 $\omega^*$ 是原问题的解，而 $\alpha^*，\beta^*$ 是对偶问题的解，则有：
$f(\omega^*) \geqslant \Theta(\alpha^*, \beta^*)$

证明：
$\Theta(\alpha^*, \beta^*) = \inf\limits_{all(\omega)}\left[L(\omega, \alpha^*, \beta^*)\right]\leqslant L(\omega^*, \alpha^*, \beta^*) = f(\omega^*)+\sum\limits_{i=1}^K\alpha_i^*g_i(\omega^*)+\sum\limits_{i=1}^M\beta_i^*h_i(\omega^*)$ ，其中限制条件为： $\left\{\begin{array}{lr}g_i(\omega^*) \leqslant 0 (i=1,2,3,...,K) \\ h_i(\omega^*) = 0(i=1,2,3,...,M) \\ \alpha_i^* \geqslant 0\end{array}\right.$ ，为什么限制条件是这个呢？因为定理说了 $\omega^*$ 为原问题的解，因此由原问题的限制条件得到前两个结果，又因为 $\alpha_i^*$ 满足对偶问题的解，因此第三个式子成立，第三个式子为对偶问题的限制条件。因此 $\sum\limits_{i=1}^K\alpha_i^*g_i(\omega^*) \leqslant 0$ 并且 $\sum\limits_{i=1}^M\beta_i^*h_i(\omega^*)=0$ ，我们得出结论： $\Theta(\alpha^*,\beta^*) \leqslant f(\omega^*)$ ，即证定理。

已知上面的定理和证明后我们有如下这样一个定义。

定义： $f(\omega^*) - \Theta(a^*, b^*) \geqslant 0$ ， $G$ 叫做原问题与对偶问题的间距 $（ D u a l i t y G a p ）$ 。
重要结论：对于某些特定优化问题，可以证明 $G = 0$ 。具体有哪些特定优化问题呢？我们直接写结论。

强对偶定理

若 $f(\omega)$ 为凸函数，且 $g(\omega) = A\omega + b，h(\omega) = C\omega + d$ ，则此优化问题的原问题和对偶问题间距为0，即 $f(\omega^*) = \Theta(\alpha^*, \beta^*)$

若强对偶定理成立，即若 $f(\omega^*) = \Theta(\alpha^*, \beta^*)$ 成立，意味着什么呢？有以下两点。
第一点，我们由上面的定理证明得： $\Theta(\alpha^*, \beta^*) = \inf\limits_{all(\omega)}\left[L(\omega, \alpha^*, \beta^*)\right]\leqslant L(\omega^*, \alpha^*, \beta^*) = f(\omega^*)+\sum\limits_{i=1}^K\alpha_i^*g_i(\omega^*)+\sum\limits_{i=1}^M\beta_i^*h_i(\omega^*)$
根据强对偶定理和上述证明得到的结论，可以得出 $\Theta(\alpha^*, \beta^*) = L(\omega^*, \alpha^*, \beta^*)$ ，这就意味着确定 $\alpha^*, \beta^*$ 的情况下，此时让 $L$ 取到最小值那个点所对应的是 $\omega^*$ 。
第二点，由上述证明过程和强对偶定理，我们得出： $\sum\limits_{i=1}^K\alpha_i^*g_i(\omega^*)+\sum\limits_{i=1}^M\beta_i^*h_i(\omega^*) = 0$ ，那么对于 $\forall i = 1,2,...,K$ ，或者 $\alpha_i^* = 0$ ，或者 $g_i^*(\omega^*) = 0$ ，那么这个这个条件成为KKT条件。

经上述补充，目的是将拓展维度后的限制条件： $y_i\left[\omega^T\varphi(x_i)+b\right] \geqslant 1-\xi_i（i=1,2,3,...,N）$ 这样的原问题转化为对偶问题，用求解对偶问题的方式来求解原问题的解。接下来我们用原问题、对偶问题来求解SVM，在解决对偶问题时会消除 $\varphi(x_i)$ ，只使用 $K(x_1, x_2)$ 。

什么是凸函数？

在这里插入图片描述

现在我们回到SVM处理非线性问题这上面来，因为 $\frac{1}{2}||\omega||^2+C\sum\limits_{i=1}^N\xi_i$ 是凸函数，此时我们就可以使用强对偶定理，SVM所对应的非线性问题：

最小化

$\min\limits_{\omega,b}\left[ \ \frac{1}{2}\|\omega\|^2+C\sum\limits_{i=1}^N\xi_i\right]$ （其中 $\xi_i$ 为松弛变量 $s l a c k v a r i a b l e$ ， $i = 1, 2, . . ., N$ ）

限制条件s.t.

$y_i\left[\omega^Tx_i+b\right] \geqslant 1-\xi_i$ （ $i = 1, 2, . . ., N$ ）
$\xi_i \geqslant 0$ （ $i = 1, 2, . . ., N$ ）

原问题：

最小化： $\min f(\omega)$
限制条件s.t.：

$g_i(\omega) \leqslant 0 (i=1,2,3,...,K)$
$h_i(\omega) = 0（i=1,2,3,...,M）$

我们将SVM非线性问题改造为原问题的形式：

最小化

$\min\limits_{\omega,b}\left[\ \frac{1}{2}\|\omega\|^2-C\sum\limits_{i=1}^N\xi_i\right]$ （因为我们要使得限制条件 $\xi_i \leqslant 0$ ，因此需将 $C$ 前的系数由正变为负）

限制条件s.t.

$1+\xi_i-y_i\left[\omega^Tx_i+b\right] \leqslant 0$ （ $i = 1, 2, . . ., K$ ）
$\xi_i \leqslant 0$ （ $i = 1, 2, . . ., K$ ）

转化为对偶问题（我们知道最初原问题为 $f(\omega)$ ，当时的待求变量为 $\omega$ ，SVM非线性问题的原问题转换为对偶问题以后，我们的待求变量为 $\omega, \xi_i, b$ ）：

最大化：

$\Theta(\alpha, \beta) = \inf\limits_{all(\omega,\xi_i,\beta)}\left[\frac{1}{2}\|\omega\|^2-C\sum\limits_{i=1}^N\xi_i+\sum\limits_{i=1}^N\beta_i\xi_i+\sum\limits_{i=1}^N\alpha_i\left[1+\xi_i-y_i\omega^T\varphi(x_i)-y_ib\right]\right]$

限制条件s.t.：

$\left\{\begin{array}{lr} \alpha_i \geqslant 0 \\ \beta_i \geqslant 0 \\ i=1,2,..,N \end{array}\right.$

注意：需注意的是我们将对偶问题 $f(\omega)+\sum\limits_{i=1}^K\alpha_ig_i(\omega)+\sum\limits_{i=1}^M\beta_ih_i(\omega)$ ，转为适用于SVM非线性问题的对偶问题 $\frac{1}{2}\|\omega\|^2-C\sum\limits_{i=1}^N\xi_i+\sum\limits_{i=1}^N\beta_i\xi_i+\sum\limits_{i=1}^N\alpha_i\left[1+\xi_i-y_i\omega^T\varphi(x_i)-y_ib\right]$ 后，因对于对偶问题，限制条件 $g_i(\omega) \leqslant 0$ 这一个条件在SVM非线性下对偶问题中有两个限制条件 $\left\{\begin{array}{lr}1+\xi_i-y_i\left[\omega^Tx_i+b\right] \leqslant 0\\ \xi_i \leqslant 0\end{array}\right.$ 与之对应（都是小于等于），因此对偶问题 $f(\omega)+\sum\limits_{i=1}^K\alpha_ig_i(\omega)+\sum\limits_{i=1}^M\beta_ih_i(\omega)$ 中 $\sum\limits_{i=1}^K\alpha_ig_i(\omega)$ 这一部分转换为了 $\sum\limits_{i=1}^N\beta_i\xi_i+\sum\limits_{i=1}^N\alpha_i\left[1+\xi_i-y_i\omega^T\varphi(x_i)-y_ib\right]$ ，后者的 $\beta_i$ 与前者的 $\beta_i$ 不同，这里容易混淆，后者的 $\alpha_i, \beta_i$ 均由前者的 $\alpha_i$ 转换而成，这一点一定要注意，很容易混淆，前者所对应的 $h_i(\omega)=0$ 这个限制条件在SVM非线性的对偶问题中并未出现，并且尽管出现也为0，因此在SVM非线性对偶问题中不会出现前者的那个 $\beta_i$ 。

OK！到目前为止，我们已经将SVM非线性问题的原问题转化为对偶问题，我们再写一遍：

最大化：

$\Theta(\alpha, \beta) = \inf\limits_{all(\omega,\xi_i,\beta)}\left[\frac{1}{2}\|\omega\|^2-C\sum\limits_{i=1}^N\xi_i+\sum\limits_{i=1}^N\beta_i\xi_i+\sum\limits_{i=1}^N\alpha_i\left[1+\xi_i-y_i\omega^T\varphi(x_i)-y_ib\right]\right]$

限制条件s.t.：

$\left\{\begin{array}{lr} \alpha_i \geqslant 0 \\ \beta_i \geqslant 0 \\i=1,2,..,N\end{array}\right.$

此时 $L(\omega,\xi_i,b) = \frac{1}{2}\|\omega\|^2-C\sum\limits_{i=1}^N\xi_i+\sum\limits_{i=1}^N\beta_i\xi_i+\sum\limits_{i=1}^N\alpha_i\left[1+\xi_i-y_i\omega^T\varphi(x_i)-y_ib\right]$ ，我们要找一个 $\omega,\xi_i,b$ ，使得 $L(\omega,\xi_i,b)$ 最小，接下来我们分别对 $L$ 关于 $\omega,\xi_i,b$ 求偏导数，这里涉及到对向量的偏导数，那么实际上对向量求偏导数就是对向量的每个元素求偏导数，即就是： $\frac{\partial f}{\partial\omega} = \left[\begin{matrix}\frac{\partial f}{\partial\omega_1} \\ \frac{\partial f}{\partial\omega_2} \\ .. \\ \frac{\partial f}{\partial\omega_n}\end{matrix}\right]$ ，接下来我们对 $L(\omega,\xi_i,b) = \frac{1}{2}\|\omega\|^2-C\sum\limits_{i=1}^N\xi_i+\sum\limits_{i=1}^N\beta_i\xi_i+\sum\limits_{i=1}^N\alpha_i\left[1+\xi_i-y_i\omega^T\varphi(x_i)-y_ib\right]$ 分别关于 $\omega,\xi_i,b$ 求偏导。

我们给出如下两个结论（这两个结论可自行推导）
（1）若 $f(\omega) = \frac{1}{2}\|\omega\|^2$ ，则 $\frac{\partial f}{\partial \omega} = \omega$
（2）若 $f(\omega) = \omega^Tx$ ，则 $\frac{\partial f}{\partial \omega} = x$

$\frac{\partial L}{\partial \omega} = 0 \Rightarrow \omega - \sum\limits_{i=1}^N \alpha_iy_i\varphi(x_i) = 0 \Rightarrow \omega = \sum\limits_{i=1}^N \alpha_iy_i\varphi(x_i)$

$\frac{\partial L}{\partial \xi_i} = 0 \Rightarrow -C + \beta_i + \alpha_i = 0 \Rightarrow \beta_i + \alpha_i = C$

$\frac{\partial L}{\partial b} = 0 \Rightarrow \sum\limits_{i=1}^N\alpha_iy_i=0$

我们将上述三个式子带入到SVM非线性的对偶问题中可求最小值，首先将 $\beta_i + \alpha_i = C$ 带入消项，然后由 $\sum\limits_{i=1}^N\alpha_iy_i=0$ 消项，最终得到下面的等式：
$\Theta(\alpha, \beta) = \inf\limits_{all(\omega,\xi_i,b)}\left[\frac{1}{2}\|\omega\|^2+\sum\limits_{i=1}^N\alpha_i \left[ 1-y_i\omega^T\varphi(x_i)\right]\right]$

其中 $\frac{1}{2}\|\omega\|^2 = \frac{1}{2}\omega^T\omega = \frac{1}{2}\left[\sum\limits_{i=1}^N \alpha_iy_i\varphi(x_i)\right]^T \left[\sum\limits_{j=1}^N \alpha_jy_j\varphi(x_j)\right] = \frac{1}{2}\sum\limits_{i=1}^N\sum\limits_{j=1}^N\alpha_i\alpha_jy_iy_j\varphi(x_i)^T\varphi(x_j)$ ，此时两部分单独运算，因此我们将两部分用 $i, j$ 区分开，由前面的知识我们知道， $y_i,y_j$ 只能取 $\pm1$ 。此时我们可将 $\varphi(x_i)^T\varphi(x_j)$ 转为核函数 $K(x_i, x_j)$ 。

其中 $-\sum\limits_{i=1}^N\alpha_iy_i\omega^T\varphi(x_i) = -\sum\limits_{i=1}^N\alpha_iy_i\left[\sum\limits_{j=1}^N\alpha_jy_j\varphi(x_j)\right]^T\varphi(x_i)=-\sum\limits_{i=1}^N\sum\limits_{j=1}^N\alpha_i\alpha_jy_iy_j\varphi(x_j)^T\varphi(x_i)$ ，该式也可将 $\varphi(x_j)^T\varphi(x_i)$ 转为核函数 $K(x_i, x_j)$ 。

最后我们得到以下结果：
$\Theta(\alpha,\beta)=\sum\limits_{i=1}^N\alpha_i-\frac{1}{2}\sum\limits_{i=1}^N\sum\limits_{j=1}^N\alpha_i\alpha_jy_iy_jK(x_i, x_j)$

支持向量机结论

最大化：

$\Theta(\alpha)=\sum\limits_{i=1}^N\alpha_i-\frac{1}{2}\sum\limits_{i=1}^N\sum\limits_{j=1}^N\alpha_i\alpha_jy_iy_jK(x_i, x_j)$

限制条件s.t.：

$\left\{\begin{array}{lr} 0 \leqslant \alpha_i \leqslant C \\ \sum\limits_{i=1}^N\alpha_iy_i = 0\end{array}\right.$

限制条件第一个由 $\alpha_i+\beta_i = C, \alpha_i \geqslant 0,\beta_i \geqslant 0$ 这三个条件一起得出，之所以这样合并，是因为在整个优化过程中 $\beta$ 是不出现的。限制条件第二个是由令 $L$ 关于 $b$ 求偏导数为零得到的。此时的问题也是凸优化问题。我们已知的是 $y_i,y_j,K(x_i,x_j)$ ，未知的是所有的 $\alpha$ 。解决此处的凸优化问题所使用的标准算法为：SMO算法。