Support Vector Machine 支持向量机

最新推荐文章于 2023-10-11 15:38:00 发布

如风过境YD

最新推荐文章于 2023-10-11 15:38:00 发布

阅读量130

点赞数

分类专栏： Machine Learning

本文链接：https://blog.csdn.net/qq_35649945/article/details/94570451

版权

Machine Learning 专栏收录该内容

27 篇文章 4 订阅

订阅专栏

支持向量机是一种二类分类模型。学习方法是间隔最大化
首先我们来了解一下支持向量和间隔的概念。

支持向量和间隔

分类学习最基本的想法就是基于训练集D在样本空间中找到一个划分超平面,将不同类别的样本分开.但能将训练样本分开的划分超平面可能有很多，如图所示，我们应该努力去找到哪一个呢?
以一个二分类问题为例，给定训练样本集 ${(x_1,y_1), (x_2, y_2)\dots(x_m,y_m)},yi∈\{-1,+1\},$ ,图中有很多条直线可即将正类和负类划分开，但是我们要找的这条直线必须泛化能力强，也就是不仅要在训练集上表现的好，在测试集上也要准确度高，在图像上可以看到我们选择的这条直线（黑色）最好是离两边的样本都越远越好，这样实际测试情况中，靠近这条线的样本就会比其他直线少一些，即容错率高一些，误分类的样本就会少一些。
设一个二分类的线性模型： $y = w x + b$ （假设只含有一个参数），则划分样本空间的线性方程为 $w x + b = 0$ ,
然后使用相应的分类决策函数 $f (x) = s i g n (w x + b)$ 进行分类，称之为线性可分支持向量机。
若该方程能够正确的将训练样本分类则对于所有 $y_i>1$ 的样本将满足 $wx_i+b>1$
,对于 $y_i<-1$ 的样本,则 $wx_i+b<-1$ ,即： $\left\{\begin{array}{ll}{{w}{x}_{i}+b \geqslant+1,} & {y_{i}=+1} \\ {{w}{x}_{i}+b \leqslant-1,} & {y_{i}=-1}\end{array}\right.$
样本 $x_i$ 到这条直线的距离为：
$r=\frac{\left|{w} {x}+b\right|}{\|{w}\|}$
在这里插入图片描述
而当给出的数据时具有多属性时，就要将参数 $w$ 换成向量 $\bm w,$ 由前面学习的线性模型的知识可以得到线性模型 $y=\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b，$ ，划分超平面的线性方程是： $\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b=0$ .
此时我们要找到的是一个可以将样本划分的超平面,样本空间可以想象成一个多维空间，此时样本空间中的点 $\bm x$ 到超平面的距离： $r=\frac{\left|\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b\right|}{\|\boldsymbol{w}\|}$
如图所示，我们将满足约束条件式 $\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b =+1或\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b =-1$ 的点（即图中虚线表示的点）称为支持向量（ $\bm x$ 具有多种属性，是一个多维向量）。两个不同类的支持向量到划分超平面的距离之和称之为间隔，即 $\gamma=\frac{1}{{\|\boldsymbol{w}\|}}+\frac{1}{{\|\boldsymbol{w}\|}}=\frac{2}{\|\boldsymbol{w}\|}$
在这里插入图片描述
由前面的分析可以得到，我们要找的划分超平面要使得划分样本到该面的距离最大(最大间隔分类超平面)，即获得 $\frac{2}{||\bm w||}$ ,并求得此时的参数 $\bm w,b$ 。其中 $||\bm w||=\sqrt{\sum_{i=1}^m(w_i^2)}$
要求 $\frac{2}{||\bm w||}$ ，即求 $||\bm w||^{-1}$ ,等价于最小化 $\frac{1}{2}||\bm w||^2$ ，
所以我们就可以得到要求一个支持向量机的基本型，即： $\begin{array}{l}{\min _{\boldsymbol{w}, b} \frac{1}{2}\|\boldsymbol{w}\|^{2}}\\ \\ {\text { 约束条件:\quad } y_{i}\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b\right) \geqslant 1, \quad i=1,2, \ldots, m}\end{array} \quad\quad(1)$ ,约束条件表示分类能否正确, $\quad b$ 通过约束条件影响着 $\bm w$ 的取值。

若训练数据集线性可分，则可将训练数据集中的样本点完全正确分开的最大间隔超平面存在且唯一。
在决定分离超平面时，只有支持向量起作用，而其他实例点并不起作用，（而线性逻辑回归会考虑所有的样本点）如果移动支持向量将改变所求的解，但是在间隔边界以外移动实例点，解不会改变，由于支持向量在决定分离超平面中起着决定性作用，所以将这种分类模型称为支持向量机。

公式推导

上式（1）可以通过求其对偶问题来求上式的解。
使用拉格朗日乘子法就转变成对偶问题，（类似于求条件极值，关于拉格朗日乘子法和KKT条件可以参考拉格朗日乘子法和KKT条件这篇文章）

对每条约束添加 $\alpha_i,i=1,2,3...m$ ,
其拉格朗日函数可表示为 $L(\boldsymbol{w}, b, \boldsymbol{\alpha})=\frac{1}{2}\|\boldsymbol{w}\|^{2}+\sum_{i=1}^{m} \alpha_{i}\left(1-y_{i}\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b\right)\right)\quad\quad(\bm2)$
( $\bm2$ )式可写成 $\begin{aligned} L(\boldsymbol{w}, b, \boldsymbol{\alpha}) &=\frac{1}{2}\|\boldsymbol{w}\|^{2}+\sum_{i=1}^{m} \alpha_{i}\left(1-y_{i}\left(\boldsymbol{w}^{T} \boldsymbol{x}_{i}+b\right)\right) \\ &=\frac{1}{2}\|\boldsymbol{w}\|^{2}+\sum_{i=1}^{m}\left(\alpha_{i}-\alpha_{i} y_{i} \boldsymbol{w}^{T} \boldsymbol{x}_{i}-\alpha_{i} y_{i} b\right) \\ &=\frac{1}{2} \boldsymbol{w}^{T} \boldsymbol{w}+\sum_{i=1}^{m} \alpha_{i}-\sum_{i=1}^{m} \alpha_{i} y_{i} \boldsymbol{w}^{T} \boldsymbol{x}_{i}-\sum_{i=1}^{m} \alpha_{i} y_{i} b \end{aligned}$
$L$ 分别对 $\bm w,b$ 求偏导，并令偏导为零得 $\begin{array}{c}{\frac{\partial L}{\partial \boldsymbol{w}}=\frac{1}{2} \times 2 \times \boldsymbol{w}+0-\sum_{i=1}^{m} \alpha_{i} y_{i} \boldsymbol{x}_{i}-0=0 \Longrightarrow \boldsymbol{w}=\sum_{i=1}^{m} \alpha_{i} y_{i} \boldsymbol{x}_{i}} \quad(\bm3)\\ \\{\frac{\partial L}{\partial b}=0+0-0-\sum_{i=1}^{m} \alpha_{i} y_{i}=0 \Longrightarrow \sum_{i=1}^{m} \alpha_{i} y_{i}=0}\end{array}\quad(4)$
将（3）代入（2），考虑（4）约束条件即可得到（1）式的对偶问题：
$\begin{aligned} \min _{\boldsymbol{w}, b} L(\boldsymbol{w}, b, \boldsymbol{\alpha}) &=\frac{1}{2} \boldsymbol{w}^{T} \boldsymbol{w}+\sum_{i=1}^{m} \alpha_{i}-\sum_{i=1}^{m} \alpha_{i} y_{i} \boldsymbol{w}^{T} \boldsymbol{x}_{i}-\sum_{i=1}^{m} \alpha_{i} y_{i} b \\ &=\frac{1}{2} \boldsymbol{w}^{T} \sum_{i=1}^{m} \alpha_{i} y_{i} \boldsymbol{x}_{i}-\boldsymbol{w}^{T} \sum_{i=1}^{m} \alpha_{i} y_{i} \boldsymbol{x}_{i}+\sum_{i=1}^{m} \alpha_{i}-b \sum_{i=1}^{m} \alpha_{i} y_{i} \\ &=-\frac{1}{2} \boldsymbol{w}^{T} \sum_{i=1}^{m} \alpha_{i} y_{i} \boldsymbol{x}_{i}+\sum_{i=1}^{m} \alpha_{i}-b \sum_{i=1}^{m} \alpha_{i} y_{i} \end{aligned}$
因为： $\sum_{i=1}^{m} \alpha_{i} y_{i}=0$ ，所以上式
$\begin{aligned} \min _{\boldsymbol{w}, b} L(\boldsymbol{w}, b, \boldsymbol{\alpha}) &=-\frac{1}{2} \boldsymbol{w}^{T} \sum_{i=1}^{m} \alpha_{i} y_{i} \boldsymbol{x}_{i}+\sum_{i=1}^{m} \alpha_{i} \\ &=-\frac{1}{2}\left(\sum_{i=1}^{m} \alpha_{i} y_{i} \boldsymbol{x}_{i}\right)^{T}\left(\sum_{i=1}^{m} \alpha_{i} y_{i} \boldsymbol{x}_{i}\right)+\sum_{i=1}^{m} \alpha_{i} \\ &=-\frac{1}{2} \sum_{i=1}^{m} \alpha_{i} y_{i} \boldsymbol{x}_{i}^{T} \sum_{i=1}^{m} \alpha_{i} y_{i} \boldsymbol{x}_{i}+\sum_{i=1}^{m} \alpha_{i} \\ &=\sum_{i=1}^{m} \alpha_{i}-\frac{1}{2} \sum_{i=1}^{m} \sum_{j=1}^{m} \alpha_{i} \alpha_{j} y_{i} y_{j} \boldsymbol{x}_{i}^{T} \boldsymbol{x}_{j} \end{aligned}$
即： $\max _{\alpha} \min _{\boldsymbol{w}, b} L(\boldsymbol{w}, b, \boldsymbol{\alpha})=\max _{\boldsymbol{\alpha}}\quad \sum_{i=1}^{m} \alpha_{i}-\frac{1}{2} \sum_{i=1}^{m} \sum_{j=1}^{m} \alpha_{i} \alpha_{j} y_{i} y_{j} \boldsymbol{x}_{i}^{T} \boldsymbol{x}_{j}\\\\\begin{array}{c}{\text { s.t. } \quad \sum_{i=1}^{N} \alpha_{i} y_{i}=0} \\ {\alpha_{i} \geqslant 0, \quad i=1,2, \cdots, m}\end{array}$
上式除 $\alpha$ 外均已知，因此可求得 $\alpha$ ,然后在求得 $\bm w,b$ ,就可求得模型：
$\begin{aligned} f(\boldsymbol{x}) &=\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b \\ &=\sum_{i=1}^{m} \alpha_{i} y_{i} \boldsymbol{x}_{i}^{\mathrm{T}} \boldsymbol{x}+b \end{aligned}$ ，注意结果需满足KKT条件： $\left\{\begin{array}{l}{\alpha_{i} \geqslant 0} \\ {y_{i} f\left(\boldsymbol{x}_{i}\right)-1 \geqslant 0} \\ {\alpha_{i}\left(y_{i} f\left(\boldsymbol{x}_{i}\right)-1\right)=0}\end{array}\right.$
解得 $\alpha$ 中满足 $\alpha>0$ 的实例点 $\bm x_i$ 称为支持向量，支持向量可在间隔边界上，也可在间隔边界与分离超平面之间。最佳分离超平面由支持向量完全决定。

软间隔

通常情况下，会有一些样本不满足约束条件，在这里插入图片描述
我们要怎样处理这些样本呢，在最大化间隔的同时，应该允许一些样本不满足约束条件 $y_{i}\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b\right) \geqslant 1$ ；同时使不满足约束条件的样本尽可能的少
即设置软间隔： $y_{i}\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b\right) \geqslant 1-\xi_i$ ,同时我们要平衡最大化间隔和分类误差， $\xi_i$ 大于等于0，称为松弛变量，即正则化损失函数：
$\min _{w, b, \xi_{i}} \frac{1}{2}\|\boldsymbol{w}\|^{2}+C \sum_{i=1}^{m} \xi_{i}\quad\quad\quad \begin{array}{c}{\text { s.t. } \quad y_{i}\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b\right) \geqslant 1-\xi_{i}} \\ {\xi_{i} \geqslant 0, i=1,2, \ldots, m}\end{array}\\\quad\quad \quad C是惩罚系数$
$\xi_i$ 可以用常见的几种损失函数来计算松弛变量，即处理不满足约束条件的值，
hinge损失： $\ell_{\text {hinge}}(z)=\max (0,1-z)$
指数损失： $\ell_{e x p}(z)=\exp (-z)$
对率损失： $\ell_{l o g}(z)=\log (1+\exp (-z))$
在这里插入图片描述

核函数

除了上述情况外，还有可能出现的在低维平面上无法进行线性分类的情况，例如在逻辑回归中讲到的异或问题，此时我们可以通过坐标变换等，将低维空间的样本映射到高维空间，在高维空间进行分类。
在这里插入图片描述
如上图所示，图中A,B为一类，C,D为一类，在二维平面上我们无法进行分类，此时我们可以将平面沿某一条直线对折如上右图，C，D就在3维空间上就是在同一平面内，就可以进行分类了。
这个翻折的过程就等价于 $\phi\left(\boldsymbol{x}_{i}\right)$ 。
通过 $\phi\left(\boldsymbol{x}_{i}\right)$ 这个函数我们可以将低维平面上的 $\bm x$ 坐标（每个坐标位置表示一个属性）映射到高维平面上，(如果原始空间是有限维，即属性有限，那么一定存在一个高维特征空间使样本可分。)然后就可以使用线性支持向量机进行求解。
由前面的知识可得： $\begin{array}{c}{\max _{\alpha} \quad \sum_{i=1}^{m} \alpha_{i}-\frac{1}{2} \sum_{i=1}^{m} \sum_{j=1}^{m} \alpha_{i} \alpha_{j} y_{i} y_{j} \phi\left(x_{i}\right)^{\mathrm{T}} \phi\left(x_{j}\right)} \\ {} \\ {\text { s.t. } \sum_{i=1}^{m} \alpha_{i} y_{i}=0} \\ {\alpha_{i} \geqslant 0, \quad i=1,2, \ldots, m}\end{array}$
而通常求解一个高维空间中的 $\bm x_i,\bm x_j$ 的内积： $\phi\left(x_{i}\right)^{\mathrm{T}} \phi\left(x_{j}\right)$ 是比较麻烦的，现在我们有这样的一个函数使得： $\kappa\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right)=\left\langle\phi\left(\boldsymbol{x}_{i}\right), \phi\left(\boldsymbol{x}_{j}\right)\right\rangle=\phi\left(\boldsymbol{x}_{i}\right)^{\mathrm{T}} \phi\left(\boldsymbol{x}_{j}\right)$
即 $\kappa\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right)$ 表示 $\bm x_i,\bm x_j$ 在低维空间中通过代入 $KaTeX parse error: Expected '\right', got 'EOF' at end of input: …ldsymbol{x}_{i}$ 可以等同于在高维中求解 $\phi\left(\boldsymbol{x}_{i}\right)^{\mathrm{T}} \phi\left(\boldsymbol{x}_{j}\right)$ 。
$\kappa\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right)$ 称之为核函数。
即我们可以通过低维空间的运算，就可以得到 $\bm x_i,\bm x_j$ 变换到高维空间中的内积，就会减少很多运算。可以重写模型函数： $\begin{aligned} \max _{\boldsymbol{\alpha}} &\quad\quad \sum_{i=1}^{m} \alpha_{i}-\frac{1}{2} \sum_{i=1}^{m} \sum_{j=1}^{m} \alpha_{i} \alpha_{j} y_{i} y_{j} \kappa\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right) \\ \text { s.t. } & \sum_{i=1}^{m} \alpha_{i} y_{i}=0 \\ & \alpha_{i} \geqslant 0, \quad i=1,2, \ldots, m \end{aligned}$
求解可得
$\begin{aligned} f(\boldsymbol{x}) &=\boldsymbol{w}^{\mathrm{T}} \phi(\boldsymbol{x})+b \\ &=\sum_{i=1}^{m} \alpha_{i} y_{i} \phi\left(\boldsymbol{x}_{i}\right)^{\mathrm{T}} \phi(\boldsymbol{x})+b \\ &=\sum_{i=1}^{m} \alpha_{i} y_{i} \kappa\left(\boldsymbol{x}, \boldsymbol{x}_{i}\right)+b \end{aligned}$