【李航统计学习笔记】第七章：支持向量机

西风瘦马1912

于 2022-08-11 17:03:04 发布

阅读量189

点赞数

分类专栏：李航统计学习笔记

本文链接：https://blog.csdn.net/weixin_39236489/article/details/126289137

版权

李航统计学习笔记专栏收录该内容

11 篇文章 2 订阅

订阅专栏

7.1支持向量机

线性可分支持向量机与间隔最大化

如何去找到一个最优的超平面？

找到一个超平面，这个超平面可以使得与它最近的样本点的距离必须大于其他所有超平面划分时与最近的样本点的距离。在SVM中，这叫间隔最大化。

基本思路：如果我们的样本点，是它在高维空间到低维空间的一个投影，总会从某一个维度开始，它变得线性可分了。

我们发现，高维中的超平面，映射到低维空间中时，可能会变成曲线或其他形式的划分形式。这也就是为什么，在svm中我们同样使用超平面来划分，但SVM可以划分非线形的数据集。它本质上仍然是线形超平面，不过是高维中的线形超平面。

那么升维一定线性可分吗？会不会升到无穷维了仍然线性不可分？不会！首先因为，我们的数据集一定是基于真实的某种分布，分为A类的样本和B类的样本一定在本质上有区别。只要有区别，就一定可以区分开来，一定在某个高维度上线性可分。

支持向量机

函数间隔：
$\widetilde{\gamma_{i}}=y_{i}\left(w x_{i}+b\right)$
几何间隔：
$\gamma_{i}=y_{i}\left(\frac{w}{\|w\|} x_{i}+\frac{b}{\|w\|}\right)=\frac{\widetilde{\gamma_{i}}}{\|w\|}$
最大间隔分离超平面：
$$
\max _{w, b} \gamma\

\text { s.t. } \quad y_{i}\left(\frac{w}{|w|} \cdot x_{i}+\frac{b}{|w|}\right) \geqslant \gamma, \quad i=1,2, \cdots, N
$$

$\max _{w, b} \frac{\hat{\gamma}}{\|w\|}\\ \text{s.t.}\quad y_{i}\left(w \cdot x_{i}+b\right) \geqslant \hat{\gamma}, \quad i=1,2, \cdots, N$

由于函数间隔可以任意缩放，我们令其为1：
$\max _{w, b} \frac{1}{\|w\|}\\ \text { s.t. } \quad y_{i}\left(w \cdot x_{i}+b\right) \geqslant 1, \quad i=1,2, \cdots, N$
因为最大化 $\dfrac{1}{\|w\|}$ 等价于最小化 $\frac{1}{2}\|w\|^{2}$ ,式子可以改写为
$\min _{w, b} \frac{1}{2}\|w\|^{2}\\ \text { s.t. } \quad y_{i}\left(w \cdot x_{i}+b\right)-1 \geqslant 0, \quad i=1,2, \cdots, N$
导入拉格朗日
$\min _{w, b} \frac{1}{2}\|w\|^{2}\\ \text { s.t. } \quad y_{i}\left(w \cdot x_{i}+b\right)-1 \geqslant 0, \quad i=1,2, \cdots, N\\ L(w, b, \alpha)=\frac{1}{2}\|w\|^{2}-\sum_{i=1}^{N} \alpha_{i} y_{i}\left(w \cdot x_{i}+b\right)+\sum_{i=1}^{N} \alpha_{i}$
目标从：
$\min _{w, b} \max _{\alpha} L(w, b, \alpha)$
转化为
$\max _{\alpha} \min _{w, b} L(w, b, \alpha)$

先求 $min _{w, b} L(w, b, a)$

将拉格朗日函数 $\alpha)$ 分别对 $w, b$ 求偏导数并令其等于0.
$\begin{aligned} &\nabla_{w} L(w, b, \alpha)=w-\sum_{i=1}^{N} \alpha_{i} y_{i} x_{i}=0 \\ &\nabla_{b} L(w, b, \alpha)=\sum_{i=1}^{N} \alpha_{i} y_{i}=0 \end{aligned}$
得
$\begin{gathered} w=\sum_{i=1}^{N} \alpha_{i} y_{i} x_{i} \\ \sum_{i=1}^{N} \alpha_{i} y_{i}=0 \end{gathered}$
将 $w$ 代入拉格朗日函数并利用 $\sum_{i=1}^{N} \alpha_{i} y_{i}=0$ , 得到
$\begin{aligned} L(w, b, \alpha) &=\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)-\sum_{i=1}^{N} \alpha_{i} y_{i}\left(\left(\sum_{j=1}^{N} \alpha_{j} y_{j} x_{j}\right) \cdot x_{i}+b\right)+\sum_{i=1}^{N} \alpha_{i} \\ &=-\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)+\sum_{i=1}^{N} \alpha_{i} \end{aligned}$
即
$\min _{w, b} L(w, b, \alpha)=-\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)+\sum_{i=1}^{N} \alpha_{i}$

再求 $\max _{\alpha} L(w, b, \alpha)$

求 $\min _{w, b} L(w, b, \alpha)$ 对 $\alpha$ 的极大，即是对偶问题
$\max _{\alpha}-\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)+\sum_{i=1}^{N} \alpha_{i}\\ \text{s.t.} \quad \sum_{i=1}^{N} \alpha_{i} y_{i}=0\\ \alpha_{i} \geqslant 0, \quad i=1,2, \cdots, N$
然后将max转化为min
$\min _{\alpha} \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)-\sum_{i=1}^{N} \alpha_{i}\\ \text{s.t.} \quad \sum_{i=1}^{N} \alpha_{i} y_{i}=0\\ \alpha_{i} \geqslant 0, \quad i=1,2, \cdots, N$

接下来求解 $\alpha$

软间隔最大化(maximum soft interval)

引入松弛变量
$y_{i}\left(w \cdot x_{i}+b\right) \geqslant 1-\xi_{i}$
约束和目标也要修改
$\min _{w, b, \xi} \frac{1}{2}\|w\|^{2}+C \sum_{i=1}^{N} \xi_{i}\\ \text { s.t. } \quad y_{i}\left(w \cdot x_{i}+b\right) \geqslant 1-\xi_{i}, \quad i=1,2, \cdots, N\\ \xi_{i} \geqslant 0, \quad i=1,2, \cdots, N$
最终结果为
$\min _{\alpha} \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)-\sum_{i=1}^{N} \alpha_{i}\\ \text { s.t. } \quad \sum_{i=1}^{N} \alpha_{i} y_{i}=0\\ 0 \leqslant \alpha_{i} \leqslant C, \quad i=1,2, \cdots, N$
和上一个section不使用软间隔的情况一样一样，我们这里也面临求解 $\alpha$ 的问题。

核函数

目前的问题：式子中间有 $x_{i}$ 和 $x_{j}$ 的点积，这个让人难受。例如在手写数字数据集Mnist中，训练集有6万个样本，6万乘6万勉强能接受。但每个样本时784维的，6万个样本两两做点积，是非常慢的。如果x是更高维度的呢?

由于公式的需要，我们需要计算 $x_{i}$ 和 $x_{j}$ 的点积。
此外，我们需要将样本映射到高维去，加入映射函数为 $\phi(x)$ ，那么 $\phi\left(x_{i}\right)$ 和 $\phi\left(x_{j}\right)$ 的维度数目进一步扩大，它们的点积会让运算变得及其复杂。 (因为维度太高了)
我们希望存在一个函数 $K\left(x_{i}, x_{j}\right)=\phi\left(x_{i}\right) \cdot \phi\left(x_{j}\right)$ ，但函数 $K$ 的计算方式更简单。也就是说，我将样本通过函数升维得到 $\phi\left(x_{i}\right)$ 和 $\phi\left(x_{j}\right)$ ，接下来要计算它们的点积，能不能有个很简单的计算公式，计算出来的结果和 $\phi\left(x_{i}\right)$ . $\phi\left(x_{j}\right)$ 一样? 那样我就不用再去算 $\phi\left(x_{i}\right) \cdot \phi\left(x_{j}\right)$ 的结果了，直接用简单方式计算不是更好吗?

这个简便方式，就是核函数

在SVM中，我们通常使用高斯核
$z)=\exp \left(-\frac{\|x-z\|^{2}}{2 \sigma^{2}}\right)$
在计算 $x$ 和 $z$ 的点积时，直接用这个公式替代就行了。

所以我们有
$\min _{\alpha} \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j} K\left(x_{i}, x_{j}\right)-\sum_{i=1}^{N} \alpha_{i}\\ \text{s.t.} \quad \sum_{i=1}^{N} \alpha_{i} y_{i}=0\\ 0 \leqslant \alpha_{i} \leqslant C, \quad i=1,2, \cdots, N$

序列最小最优化算法

现在我们只剩下 $\alpha$ 需要求解。而且我们求解出来的 $\alpha$ 一定要让整个结果满足KKT条件。如果不满足，那一定不是最优解。所以我们可以每次不断调整 $\alpha$ 的值，直到所有 $\alpha$ 都满足KKT条件，这时候我们一定得到了最优解。如何调整呢？可以用序列最小最优化算法，也就是SMO。

假设整个式子有N个 $\alpha = (\alpha_1, \alpha_2, \alpha_3, \cdots, \alpha_N)$ ,先固定了其他 $\alpha_i$ ，找 $\alpha_1$ 。先让 $\alpha_1$ 满足KKT条件。但是如果固定除 $\alpha_1$ 以外的所有 $\alpha_i$ ,等于也固定了 $\alpha_1$ 。
$\alpha_{1}=-y_{1} \sum_{i=2}^{N} \alpha_{i} y_{i}$
所以我们每次选择优化两个 $\alpha_i$
$\alpha_{1} y_{1}+\alpha_{2} y_{2}=-\sum_{i=3}^{N} y_{i} \alpha_{i}$
进一步，因为原式中目前只有 $\alpha_1$ 和 $\alpha_2$ 两个变量，我们将其他作为常数去除。
$\min _{\alpha} \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j} K\left(x_{i}, x_{j}\right)-\sum_{i=1}^{N} \alpha_{i}\\ \text { s.t. } \quad \sum_{i=1}^{N} \alpha_{i} y_{i}=0\\ 0 \leqslant \alpha_{i} \leqslant C, \quad i=1,2, \cdots, N$

整理一下
$\begin{aligned} \min _{\alpha_{1}, \alpha_{2}} W\left(\alpha_{1}, \alpha_{2}\right)=& \frac{1}{2} K_{11} \alpha_{1}^{2}+\frac{1}{2} K_{22} \alpha_{2}^{2}+y_{1} y_{2} K_{12} \alpha_{1} \alpha_{2} \\ &-\left(\alpha_{1}+\alpha_{2}\right)+y_{1} \alpha_{1} \sum_{i=3}^{N} y_{i} \alpha_{i} K_{i 1}+y_{2} \alpha_{2} \sum_{i=3}^{N} y_{i} \alpha_{i} K_{i 2}\\ &\text { s.t. } \quad \alpha_{1} y_{1}+\alpha_{2} y_{2}=-\sum_{i=3}^{N} y_{i} \alpha_{i}=\zeta\\ &0 \leqslant \alpha_{i} \leqslant C, \quad i=1,2 \end{aligned}$
目前可知， $\alpha_i$ 一定在0到C之间。我们已知：
$\sum \alpha_{i} y_{i}=0$
有
$\alpha_{1} y_{1}+\alpha_{1} y_{2}=-\sum_{i=3}^{m} \alpha_{i} y_{i}= \zeta$
(to be continued)