第七章支持向量机.7.1 导论_支持向量机导论-CSDN博客

本文链接：https://blog.csdn.net/oldmao_2001/article/details/115112916

文章目录

前言
基础知识
线性SVM
- 相关概念的数学表达
- 超平面参数求解
软间隔最大化
核函数
序列最小最优化算法（SMO）
总结

本课程来自深度之眼，部分截图来自课程视频以及李航老师的《统计学习方法》第二版。
公式输入请参考：在线Latex公式

前言

学习第7章支持向量机，理解线性可分支持向量机、线性支持向量机和非线性支持向量机。
详细说明：第7章介绍了支持向量机如何用于二分类问题。通过学习第1节，掌握线性可分支持向量机与感知机的区别，了解对应的凸优化问题、对偶问题及相应的算法，掌握软间隔最大化对应的优化问题、对偶问题及相应的算法，其中合页损失函数不做学习要求，了解核函数在非线性支持向量机中的应用；介绍了训练样本较大时的序列最小最优化算法。通过学习第2节，对最优超平面的存在唯一性进行了证明。
学习目标：
0.导读视频。
1.理解线性可分支持向量机硬间隔最大化的思想、对应的优化问题、对偶问题和相应算法。
2.理解硬间隔最大化解的存在唯一性。
3. 理解线性支持向量机软间隔最大化的思想、对应的优化问题、对偶问题和相应算法。
4.了解核函数在非线性支持向量机中的应用和对应的算法。
5.了解序列最小最优化算法的基本思想。
6.掌握支持向量机的算法实现。
总体思路就是：线性分类、软间隔分类、非线性分类
在这里插入图片描述
好多苹果。。。

基础知识

最优超平面

在这里插入图片描述
上图中超平面A是最优的。因为它与两个类的距离都足够大。
结论：
我们试图要去找到一个超平面，这个超平面可以使得与它最近的样本点的距离必须大于其他所有超平面划分时与最近的样本点的距离。
在svm中，这叫间隔最大化。

非线性划分

对于如下图所示的数据（非线性可分），SVM如何做到划分的呢？

就是考虑在高维空间中进行划分：

老师这里给了一个例子来帮助理解。
一个棍子，是二维的（直径不大）若棍子上有两个点。
在这里插入图片描述
1.当有人拿着棍子指着你时，你只能看到棍子的横截面，是一个点，它是一维的。我们无法将两个点区分开来。因为它们重叠了。

2.当有人拿着棍子指着别人时，我们能看到整根棍子，这时候是二维的。我们可以一刀把棍子劈开来，把红豆和绿豆区分来开。所以，红豆和绿豆虽然在一维的时候不能分开，但在二维时就线性可分型了。
在这里插入图片描述
但是如果棍子的有很多个点，这个时候二维仍然不能切分：

3.这时候我们把棍子真正看成一个三维中的棍子，是有体积的。如果把棍子立在地上，很有可能红豆都在靠南侧，绿豆都在靠北侧，那么我们像劈柴一样把这个棍子劈开，也一样线性可分。
在这里插入图片描述

4.如果三维还不能线性可分，那就升到4维。总会从某一个维度开始，数据集变得线性可分了（万物皆可线性划分）。高维中的超平面，映射到低维空间中时，可能会变成曲线或其他形式的划分形式。这也就是为什么，在SVM中我们同样使用超平面来划分，但SVM可以划分非线形的数据集。因为它本质上仍然是线形超平面，不过是高维中的线形超平面。
这里要注意：如果数据在N维空间线性可分，在N+1维也是线性可分的。

小结

1.SVM使用间隔最大化思想构造最优超平面。
2.构造出来的超平面使得其与最近的点的距离最大。
3.SVM也可划分非线形数据集。
4.它通过高维中的线形超平面在低维中的投影来完成非线形的划分。因此从直观上来讲，我们的模型必定有一个升维的操作。

线性SVM

超平面参数求解

根据上面的式子构造拉格朗日（这里的约束有 $N$ 个）：
$L(w,b,\alpha)=\cfrac{1}{2}||w||^2-\sum_{i=1}^N\alpha_iy_i\left(w\cdot x_i+b\right)+\sum_{i=1}^N\alpha_i\tag1$
在拉格朗日的式子中 $\alpha$ 是参数，要通过找到拉格朗日的式子获得最大值的参数 $\alpha$ 后，再去求使得目标最小的参数 $w, b$ ：
$\underset{w,b}{\min}\underset{\alpha}{\max}L(w,b,\alpha)$
这个不好求，由于凸函数的缘故，可以转化为：
$\underset{\alpha}{\max}\underset{w,b}{\min}L(w,b,\alpha)$

1.求极值，就是要求偏导并使其等于0：
$\cfrac{\partial L}{\partial w}=w-\sum_{i=1}^N\alpha_iy_ix_i=0$
$\cfrac{\partial L}{\partial b}=\sum_{i=1}^N\alpha_iy_i=0$
解出来：
$w=\sum_{i=1}^N\alpha_iy_ix_i\\ \sum_{i=1}^N\alpha_iy_i=0\tag2$
将2代入1，这里为了区分，把部分 $w$ 下标换成 $j$ ：
$\begin{aligned}L(w,b,\alpha)&=\cfrac{1}{2}\sum_{i=1}^N\alpha_iy_ix_i\sum_{j=1}^N\alpha_jy_jx_j-\sum_{i=1}^N\alpha_iy_i\left(\sum_{j=1}^N\alpha_jy_jx_jx_i+b\right)+\sum_{i=1}^N\alpha_i\\ &=\cfrac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_jx_ix_j-\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_jx_ix_j-\sum_{i=1}^N\alpha_iy_ib+\sum_{i=1}^N\alpha_i\\ &=-\cfrac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_jx_ix_j+\sum_{i=1}^N\alpha_i\end{aligned}$
也就是
$\underset{w,b}{\min}L(w,b,\alpha)=-\cfrac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_jx_ix_j+\sum_{i=1}^N\alpha_i$

2.求 $\underset{w,b}{\min}L(w,b,\alpha)$ 对 $\alpha$ 的最大，就是：
$\underset{\alpha}{\max}-\cfrac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_jx_ix_j+\sum_{i=1}^N\alpha_i\\ \text{s.t. }\sum_{i=1}^N\alpha_iy_i=0\\ \alpha_i\ge0,i=1,2,\cdots,N$
这里 $w$ 没有了，约束就剩下一个，最后那个条件是拉格朗日法附带的条件。

3.将max转化为min问题：
$\underset{\alpha}{\min}\cfrac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_jx_ix_j-\sum_{i=1}^N\alpha_i\\ \text{s.t. }\sum_{i=1}^N\alpha_iy_i=0\\ \alpha_i\ge0,i=1,2,\cdots,N$

接下来求 $\alpha$ 后面一块讲。

软间隔最大化

之前的超平面目标和约束条件是：
$\underset{w,b}{\min}\cfrac{1}{2}||w||^2 \\ \text{s.t.}\quad y_i\left(w\cdot x_i+b\right)-1\ge0\quad i = 1,2,\cdots,N$
但是在使用超平面划分数据后，仍然有小部分数据越过了超平面，这个时候就需要加入松弛因子： $y_i\left(w\cdot x_i+b\right)\ge1-\xi_i$ 。使得对这些样本有一定的容忍，因此目标和约束条件变成：

$\underset{w,b,\xi}{\min}\cfrac{1}{2}||w||^2 +C\sum_{i=1}^N\xi_i\\ \text{s.t.}\quad y_i\left(w\cdot x_i+b\right)\ge1-\xi_i\quad i = 1,2,\cdots,N\\ \xi_i\ge0,\quad i = 1,2,\cdots,N$
同样参考上面：超平面参数求解的过程可以解出最后的结果：
$\underset{\alpha}{\min}\cfrac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_jx_ix_j-\sum_{i=1}^N\alpha_i\\ \text{s.t. }\sum_{i=1}^N\alpha_iy_i=0\\ 0\le \alpha_i\le C,i=1,2,\cdots,N$

接下来求 $\alpha$ 后面一块讲。

核函数

把之间的结果拉过来，整理一下：
$\underset{\alpha}{\min}\cfrac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)-\sum_{i=1}^N\alpha_i\\ \text{s.t. }\sum_{i=1}^N\alpha_iy_i=0\\ 0\le \alpha_i\le C,i=1,2,\cdots,N$
式子中间有 $\sum_{i=1}^N\sum_{j=1}^Nx_i\cdot x_j$ ，这个计算量很大，相当于所有样本之间两两做点乘。例如在手写数字数据集Mnist中，训练集有6万个样本，6万乘6万勉强能接受。
但每个样本时784维的，6万个样本两两做点积，是非常慢的。如果样本是更高维度的呢？

此外，我们需要将样本映射到高维去，加入映射函数为 $\phi(x)$ ，那么 $\phi(x_i)$ 和 $\phi(x_j)$ 的维度数目进一步扩大，它们的点积会让运算变得及其复杂。（因为维度太高了）
因此，我们希望存在一个函数 $K(x_i,x_j)=\phi(x_i)\cdot\phi(x_j)$ ，但函数 $K$ 的计算方式更简单。也就是说，我将样本通过函数升维得到 $\phi(x_i)$ 和 $\phi(x_j)$ ，接下来要计算它们的点积，能不能有个很简单的计算公式，计算出来的结果和 $\phi(x_i)\cdot\phi(x_j)$ 一样？那样我就不用再去算 $\phi(x_i)\cdot\phi(x_j)$ 的结果了，直接用简单方式计算，也就是核函数。
常用的核函数是高斯核函数：
$K(x,z)=\exp\left(-\cfrac{||x-z||^2}{2\sigma^2}\right)$
上面的约束和目标变成了：
$\underset{\alpha}{\min}\cfrac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_jK(x_i, x_j)-\sum_{i=1}^N\alpha_i\\ \text{s.t. }\sum_{i=1}^N\alpha_iy_i=0\\ 0\le \alpha_i\le C,i=1,2,\cdots,N$
下面就用SMO来求解之前都没有讲解的，如何求 $\alpha$

序列最小最优化算法（SMO）

SMO: Sequential minimal optimization
思路：我们最后求解出来的 $\alpha$ ，一定是让整个结果满足KKT条件的。如果不满足，那一定不是最优解。所以我们可以用SMO算法不断地调整 $\alpha$ 的值，直到所有 $\alpha$ 都满足KKT条件，这时候就得到了最优解。
KKT条件在附录450页，证明过程比较复杂，最后结果是5个不等式。
假设整个式子中共有N个 $\alpha(\alpha_1,\alpha_2,\cdots,\alpha_N)$ ，此时不能只优化一个维度的 $\alpha$ ，因为有约束条件 $\sum_{i=1}^N\alpha_iy_i=0$ ，如果优化 $\alpha_1$ ，其余维度固定，由于 $\alpha_1y_1+\sum_{i=2}^N\alpha_iy_i=0$ 因此 $\alpha_1$ 也固定住了，因此这里我们选择一次优化两个维度：
$\alpha_1y_1+\alpha_2y_2=-\sum_{i=3}^N\alpha_iy_i$
由于原式只有 $\alpha_1,\alpha_2$ 两个变量，其他可以作为常数去掉。
$\underset{\alpha}{\min}\cfrac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_jK(x_i, x_j)-\sum_{i=1}^N\alpha_i$
变成：
$\cfrac{1}{2}\sum_{i=1}^2\sum_{j=1}^2\alpha_i\alpha_jy_iy_jK(x_i, x_j)-\sum_{i=1}^2\alpha_i\\+\cfrac{1}{2}\alpha_1y_1\sum_{j=3}^N\alpha_jy_jK(x_1, x_j)+\cfrac{1}{2}\alpha_2y_2\sum_{j=3}^N\alpha_jy_jK(x_2, x_j)+\\\cfrac{1}{2}\alpha_1y_1\sum_{i=3}^N\alpha_iy_iK(x_i, x_1)+\cfrac{1}{2}\alpha_2y_2\sum_{i=3}^N\alpha_iy_iK(x_i, x_2)\\ =\cfrac{1}{2}\alpha_1\alpha_1y_1y_1K(x_1, x_1)+\cfrac{1}{2}\alpha_1\alpha_2y_1y_2K(x_1, x_2)+\cfrac{1}{2}\alpha_2\alpha_1y_2y_1K(x_2, x_1)+\cfrac{1}{2}\alpha_2\alpha_2y_2y_2K(x_2, x_2)-\sum_{i=1}^2\alpha_i\\+\cfrac{1}{2}\alpha_1y_1\sum_{j=3}^N\alpha_jy_jK(x_1, x_j)+\cfrac{1}{2}\alpha_2y_2\sum_{j=3}^N\alpha_jy_jK(x_2, x_j)+\\\cfrac{1}{2}\alpha_1y_1\sum_{i=3}^N\alpha_iy_iK(x_i, x_1)+\cfrac{1}{2}\alpha_2y_2\sum_{i=3}^N\alpha_iy_iK(x_i, x_2)\\ =\cfrac{1}{2}\alpha_1^2K(x_1, x_1)+\alpha_1\alpha_2y_1y_2K(x_1, x_2)+\cfrac{1}{2}\alpha_2^2K(x_2, x_2)-\sum_{i=1}^2\alpha_i\\+\cfrac{1}{2}\alpha_1y_1\sum_{j=3}^N\alpha_jy_jK(x_1, x_j)+\cfrac{1}{2}\alpha_2y_2\sum_{j=3}^N\alpha_jy_jK(x_2, x_j)+\\\cfrac{1}{2}\alpha_1y_1\sum_{i=3}^N\alpha_iy_iK(x_i, x_1)+\cfrac{1}{2}\alpha_2y_2\sum_{i=3}^N\alpha_iy_iK(x_i, x_2)$
把求和里面的变量改下名字，K里面的先后顺序可以互换，合并后可以写为：
$\underset{\alpha_1,\alpha_2}{\min}W(\alpha_1,\alpha_2)=\cfrac{1}{2}\alpha_1^2K(x_1, x_1)+\alpha_1\alpha_2y_1y_2K(x_1, x_2)+\cfrac{1}{2}\alpha_2^2K(x_2, x_2)\\-(\alpha_1+\alpha_2)+\alpha_1y_1\sum_{i=3}^N\alpha_iy_iK(x_1, x_i)+\alpha_2y_2\sum_{i=3}^N\alpha_iy_iK(x_2, x_i)\\ \text{s.t.}\quad \alpha_1y_1+\alpha_2y_2=-\sum_{i=3}^N\alpha_iy_i=\zeta \\ 0\le\alpha_i\le C,\quad i=1,2$
根据上面的约束条件，可以得到：
$\alpha_1y_1+\alpha_2y_2=\zeta\rightarrow \alpha_1 = \cfrac{\zeta-\alpha_2y_2}{y_1}$
因此根据上面的 $W(\alpha_1,\alpha_2)$ 可以知道，该函数可以看做是一个关于 $\alpha_2$ 的二次函数（因为 $\alpha_1$ 可以用 $\alpha_2$ 表示），也就是最后可以写成：
$w=a\alpha_2^2+b\alpha_2+c$
然后结合最后一个约束条件，而且 $y$ 的取值只有两种情况，第一种是：
$y_1\ne y_2\rightarrow \alpha_1 -\alpha_2 = \zeta$
另外一种是：
$y_1= y_2\rightarrow \alpha_1 +\alpha_2 = \zeta$
以 $\alpha_1$ 为x轴， $\alpha_2$ 为y轴，那么第一种情况对应的图像是：
在这里插入图片描述
方形四条边分别是由： $左\alpha_1 = 0,下\alpha_2 = 0,右\alpha_1 = C,上\alpha_2 = C$ 围成的。红线是第一种情况的 $\alpha_1 -\alpha_2 = \zeta$ 约束。a点坐标是 $(\alpha_1=\zeta,\alpha_2 = 0)$ ，b点坐标是 $(\alpha_1=C,\alpha_2 = C-\zeta)$
对于第二种情况图像如下，就不描述了：
在这里插入图片描述
于是就可以经过一番操作得到最后 $\alpha_1,\alpha_2$ 的具体范围，得到他们的范围后，怎么再从 $\alpha$ 向量里面选择两个维度来进行优化呢？如果按顺序 $\alpha_1,\alpha_2$ ， $\alpha_3,\alpha_4\cdots$ 这下去不是不行，就是很低效，因此这里的思想是找最需要优化的两个维度，最需要优化那么它违反KTT条件最严重。当然KTT条件有好几个，实作的时候直接找违反其中一个条件的速度也还不错。KTT条件不列了。找到第一个维度 $\alpha$ 后，就是找第二个维度，第二个维度的选择是在第一个维度违反KKT条件最严重的条件下，再找一个维度，使得 $E_1-E_2|$ 最大。 $E 1$ 代表模型预测值和真实值的差距。
就是把 $w=\sum_{i=1}^N\alpha_iy_ix_i$ 代入 $w\cdot x+b-y_1$ 里面展开即可。
两个维度都找到并优化后，然后找下一对维度，直到找不到不违反KTT的维度为止。