机器学习-白板推导系列(六)(1)-支持向量机SVM（Support Vector Machine）

最新推荐文章于 2022-09-02 10:23:41 发布

Paul-Huang

最新推荐文章于 2022-09-02 10:23:41 发布

阅读量426

点赞数 2

分类专栏：机器学习-白板推导文章标签：机器学习支持向量机

本文链接：https://blog.csdn.net/huang1024rui/article/details/112798868

版权

机器学习-白板推导专栏收录该内容

23 篇文章 43 订阅

订阅专栏

6. 支持向量机SVM（Support Vector Machine）

6.1 引言

简介
SVM是什么? 先来看看维基百科上对SVM的定义:

支持向量机（英语：support vector machine，常简称为SVM，又名支持向量网络）是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。给定一组训练实例，每个训练实例被标记为属于两个类别中的一个或另一个，SVM训练算法创建一个将新的实例分配给两个类别之一的模型，使其成为非概率二元线性分类器。SVM模型是将实例表示为空间中的点，这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后，将新的实例映射到同一空间，并基于它们落在间隔的哪一侧来预测所属类别。

简单点讲，SVM就是一种二类分类模型，他的基本模型是的定义在特征空间上的间隔最大的线性分类器，SVM的学习策略就是间隔最大化。
直观理解

图中有分别属于两类的一些二维数据点和三条直线。如果三条直线分别代表三个分类器的话，请问哪一个分类器比较好？

我们凭直观感受应该觉得答案是H3。首先H1不能把类别分开，这个分类器肯定是不行的；H2可以，但分割线与最近的数据点只有很小的间隔，如果测试数据有一些噪声的话可能就会被H2错误分类(即对噪声敏感、泛化能力弱)。H3以较大间隔将它们分开，这样就能容忍测试数据的一些噪声而正确分类，是一个泛化能力不错的分类器。

对于支持向量机来说，数据点若是 $p$ 维向量，我们用 $p - 1$ 维的超平面来分开这些点。但是可能有许多超平面可以把数据分类。最佳超平面的一个合理选择就是以最大间隔把两个类分开的超平面。因此，SVM选择能够使离超平面最近的数据点的到超平面距离最大的超平面。
概括
- SVM有三宝： $\color{red}间隔, 对偶, 核技巧$ 。
- 从类别上来看，分为三类：
  - $\color{red}硬间隔$ ：hard-margin SVM
  - $\color{red}软间隔$ ：soft-margin SVM
  - $\color{red}核方法$ ：kernel SVM

6.2 硬间隔SVM-模型定义（最大间隔分类器）

6.2.1 概述

已知数据 $\color{red}线性可分$ 的训练数据集:
$x_{i}\in \mathbb{R}^{p},i=1,2,\cdots ,N\\ X=(x_{1},x_{1},\cdots ,x_{N})^{T}=\begin{pmatrix} x_{1}^{T}\\ x_{2}^{T}\\ \vdots \\ x_{N}^{T} \end{pmatrix}=\begin{pmatrix} x_{11} & x_{12} & \cdots &x_{1p} \\ x_{21} & x_{22}& \cdots &x_{2p} \\ \vdots & \vdots & \ddots &\vdots \\ x_{N1}& x_{N2} & \cdots & x_{Np} \end{pmatrix}_{N \times p}$
$\left \{(x_{i},y_{i})\right \}_{i=1}^{N},x_{i}\in \mathbb {R}^{p},y_{i}\in \{+1,-1\}$
其中 $x_i$ 是一个含有 $p$ 个元素的列向量; $y_i$ 是标量, $y∈\{+1,−1\}, y_i=+1$ 时表示 $x_i$ 属于正类别, $y_i=−1$ 时表示 $x_i$ 属于负类别。
我们知道，SVM就是寻找最佳超平面的一个合理选择就是以最大间隔把两个类分开的超平面，如下图：
$f(w)=sign(w^Tx+b)$ 为返回结果，因此其是 $\color{red}判别模型$ ，而非概率模型。则对间隔最大化转化为数学表示：
$\left\{\begin{matrix} \underset{W,b}{max}\; margin(W,b)\\ s.t.\; y_{i}(W^{T}x_{i}+b)>0,i=1,2,\cdots ,N \end{matrix}\right.\tag{6.2.1}$

6.2.2 简化数学模型

具体化间隔距离
超平面的方程也可以写成一下形式：
$W^Tx+b=0$
有了超平面的表达式之后之后，我们就可以计算样本点到平面的距离了。假设 $(x_{11} , x_{12} , \cdots ,x_{1p})$ 为样本的中的一个点，其中 $x_{1i}$ 表示为第 $i$ 个特征变量。那么：
- 该点到超平面的距离 $\color{blue}distance$ 就可以用如下公式进行计算：
  $distance(W,b,x_{i})=\frac{\left | W^{T}x+b\right |}{\left \| W\right \|}\\ (可以参考初中知识点：点到直线距离d=\frac{\left | Ax+By+C\right |}{\sqrt{A^{2}+B^{2}}})$
- 则间隔 $m a r g i n (W, b)$ 可以表达为：
  $margin(W,b)=\underset{x_{i}}{min}\; distance(W,b,x_{i})=\underset{x_{i}}{min}\frac{\left | W^{T}x_{i}+b\right |}{\left \| W\right \|},i=1,2,\cdots ,N$
- 因此最大间隔可以表达为：
  $\\ \underset{W,b}{max}\; margin(W,b)=\underset{W,b}{max}\; \underset{x_{i}}{min}\frac{\left | W^{T}x_{i}+b\right |}{\left \| W\right \|}=\underset{W,b}{max}\; \underset{x_{i}}{min}\frac{y_{i}(W^{T}x_{i}+b)}{\left \| W\right \|},i=1,2,\cdots ,N$
- 求解支持向量机（公式(6.2.1)）就可以转化为以下带约束的优化问题：
  $\left\{\begin{matrix} \underset{W,b}{max}\; \underset{x_{i}}{min}\frac{y_{i}(W^{T}x_{i}+b)}{\left \| W\right \|},i=1,2,\cdots ,N\\ s.t.\; y_{i}(W^{T}x_{i}+b)>0,i=1,2,\cdots ,N \end{matrix}\right.\tag{6.2.2}$
优化间隔距离
- 由于SVM为 $\color{red}判别模型$ ，令 $\gamma=\underset{x_{i}}{min}\; y_{i}(W^{T}x_{i}+b)$ ；由约束 $y_{i}(W^{T}x_{i}+b)>0,i=1,2,\cdots ,N$ 则
  $\gamma >0$
- 由于确定同一个超平面的 $W, b$ 可以任意放缩，所以这里令 $\gamma=1$ 。则：
  $\underset{W,b}{max}\; margin(W,b) =\underset{W,b}{max}\; \underset{x_{i}}{min}\frac{y_{i}(W^{T}x_{i}+b)}{\left \| W\right \|}\\ =\underset{W,b}{max}\frac{1}{\left \| W\right \|}\underset{\gamma =1}{\underbrace{\underset{x_{i}}{min}\; y_{i}(W^{T}x_{i}+b)}} =\underset{W,b}{max}\frac{1}{\left \| W\right \|}$
- $\underset{W,b}{\max}{1 \over \Vert W\Vert}$ 由求极大值变为求极小值。
  $\underset{W,b}{max}\; margin(W,b) =\underset{W,b}{min}\frac{1}{2}W^{T}W; i=1,2,\cdots ,N$
- 则优化问题转化为：
  $\color{red}\left\{\begin{matrix} \underset{W,b}{min}\frac{1}{2}W^{T}W \\ s.t.\; y_{i}(W^{T}x_{i}+b)\geq 1,i=1,2,\cdots ,N \end{matrix}\right.\tag{6.2.3}$
  这是一个带N个约束的凸优化问题。

6.3 硬间隔SVM-模型求解（对偶问题之引出）

6.3.1 拉格朗日和对偶问题

构建拉格朗日函数
根据数据 $\{(x_i,y_i) \}^N_{i=1}，x_i \in \mathbb R^p， y_i \in \{ -1, +1 \}$ 和凸问题的约束模型(公式(6.2.3)),使用拉格朗日乘子法来求解，构建拉格朗日函数：
$L(W,b,\lambda )=\frac{1}{2}W^{T}W+\sum_{i=1}^{N}\lambda _{i}(1-y_{i}(W^{T}x_{i}+b))\\ \lambda =\begin{pmatrix} \lambda _{1} & \lambda _{2} & \cdots & \lambda _{N} \end{pmatrix}^{T}$
其中 $\lambda_i \ge 0$ (后面解释为什么 $\lambda_i$ 要大于等于 $0$ )， $1-y_i(W^Tx_i+b)\le 0$ 。则凸问题的约束模型(公式(6.2.3))可以转换成以下优化问题：
$\color{red}\left\{\begin{matrix} \underset{W,b}{min}\; \underset{\lambda }{max}L(W,b,\lambda )=\frac{1}{2}W^{T}W+\sum_{i=1}^{N}\lambda _{i}(1-y_{i}(W^{T}x_{i}+b))\\ s.t.\; \lambda _{i}\geq 0,i=1,2,\cdots ,N \end{matrix}\right.\tag{6.3.1}$
有约束模型与无约束模型等价
对于拉格朗日函数，令 $\Delta =1-y_i(W^Tx_i+b)$ ，则有：
- 当 $\Delta =1-y_{i}(W^{T}x_{i}+b)>0$ 时，由于 $\lambda _{i}\geq 0$ ，所以 $\underset{\lambda }{max}L(W,b,\lambda )=\infty$
- 当 $\Delta =1-y_{i}(W^{T}x_{i}+b)\leq 0$ 时，由于 $\lambda _{i}\geq 0$ ，所以 $\underset{\lambda }{max}L(W,b,\lambda )=\frac{1}{2}W^{T}W$
  因此根据 $\Delta$ 的情况，可以有两种结果，此时将其带入无约束模型中： $\underset{W,b}{min}\; \underset{\lambda }{max}L(W,b,\lambda )=\underset{W,b}{min}\left \{\frac{1}{2}W^{T}W,\infty \right \}=\frac{1}{2}W^{T}W$
  这里巧妙的使用最小最大模型自动筛选出了 $\Delta >0$ 的情况。
$\lambda_i \ge0$ 的原因
设问题是 $x\in \mathbb {R}^{2}$
$\left\{\begin{matrix} \underset{\alpha}min{f(x)}\\ s.t.\; g(x)\leq0\end{matrix}\right.$
- 假设 $f(x)={x_1}^2+{x_2}^2$ and $g(x)={x_1}^2+{x_2}^2-1$ 。那这个时候可以很容易想到 $f$ 的global minimum就是在 $g (x)$ 的限制里，如图在图的圆心处，这个时候调用拉格朗日函数，系数就是等于0的。
- 假设 $f(x)=({x_1}-1.1)^2+({x_2}-1.1)^2$ and $g(x)={x_1}^2+{x_2}^2-1$ 。这个时候f的最小值就被 $feasible\;region$ 限制了， $KKT\;condition$ 下面有一个步骤是需要对 $g$ 和 $f$ 取导数并且让他们平行，如
  $-\nabla_x f(x)=\lambda\nabla_x g(x);\; \lambda>0$
  那为什么这里要 $\lambda>0$ 呢，如下图所示，最小值会发生在 $feasible\;;region$ 的边缘，而且会发生在 $-\Delta f$ 和 $\Delta g$ 方向相同的点上。
对偶关系
$\color{blue}min\; max\; L$ 的对偶问题为 $\color{blue}max\; min\; L$ ,有以下结论：
- 如果：
  $\\ min\; max\; L\geq max\; min\; L$
  可以简单地认为对于L先取最大，再从最大里面取最小就一定大于等于先取最小，再从最小里面取最大。 $\color{blue}\min \ \max\ L$ 是指凤尾，大个里面挑小个， $\color{blue}\max\ \min \ L$ 是指鸡头，小个里面挑大个鸡头再厉害也只是鸡，不会变成凤的，因此凤尾大于等于鸡头，即 $“凤尾”\geq “鸡头”$
- 如果 $min\; max\; L$ 是 $\color{red}凸优化$ 问题，则
  $\color{red}min\; max\; L=max\; min\; L，为强对偶关系$
- 因此该优化问题可以继续转化：
  $\color{red}\left\{\begin{matrix} \underset{\lambda }{max}\; \underset{W,b}{min}\;L(W,b,\lambda )=\frac{1}{2}W^{T}W+\sum_{i=1}^{N}\lambda _{i}(1-y_{i}(W^{T}x_{i}+b))\\ s.t.\; \lambda _{i}\geq 0,i=1,2,\cdots ,N \end{matrix}\right.\tag{6.3.2}$
  
  该优化问题经历了以下转化过程：
  $①\; 带约束优化问题\left\{\begin{matrix} \underset{W,b}{max}\; margin(W,b)=\underset{W,b}{max}\; \underset{x_{i}}{min}\frac{y_{i}(W^{T}x_{i}+b)}{\left \| W\right \|},i=1,2,\cdots ,N\\ s.t.\; y_{i}(W^{T}x_{i}+b)>0,i=1,2,\cdots ,N \end{matrix}\right.\\ ②\; 带约束优化问题\left\{\begin{matrix} \underset{W,b}{min}\;\frac{1}{2}W^{T}W\\ s.t.\; y_{i}(W^{T}x_{i}+b)\geq 1,i=1,2,\cdots ,N \end{matrix}\right.\\ ③\; 无约束优化问题\left\{\begin{matrix} \underset{W,b}{min}\; \underset{\lambda }{max}L(W,b,\lambda )=\frac{1}{2}W^{T}W+\sum_{i=1}^{N}\lambda _{i}(1-y_{i}(W^{T}x_{i}+b))\\ s.t.\; \lambda _{i}\geq 0,i=1,2,\cdots ,N \end{matrix}\right.\\ ④\; 无约束优化问题\left\{\begin{matrix} \underset{\lambda }{max}\; \underset{W,b}{min}\;L(W,b,\lambda )=\frac{1}{2}W^{T}W+\sum_{i=1}^{N}\lambda _{i}(1-y_{i}(W^{T}x_{i}+b))\\ s.t.\; \lambda _{i}\geq 0,i=1,2,\cdots ,N \end{matrix}\right.$

6.3.2 模型求解

由公式(6.3.2)，
$\left\{\begin{matrix} \underset{\lambda }{max}\; \underset{W,b}{min}\;L(W,b,\lambda )=\frac{1}{2}W^{T}W+\sum_{i=1}^{N}\lambda _{i}(1-y_{i}(W^{T}x_{i}+b))\\ s.t.\; \lambda _{i}\geq 0,i=1,2,\cdots ,N \end{matrix}\right.$
对其进行求解

对 $b$ 求导
$\frac{\partial L}{\partial b}=\frac{\partial \sum_{i=1}^{N}\lambda _{i}-\sum_{i=1}^{N}\lambda _{i}y_{i}(W^{T}x_{i}+b)}{\partial b}=\frac{\partial -\sum_{i=1}^{N}\lambda _{i}y_{i}b}{\partial b}=-\sum_{i=1}^{N}\lambda _{i}y_{i}=0$
因此得出 $\sum_{i=1}^{N}\lambda _{i}y_{i}=0$
求解 $W$
将上一步的结果代入 $L(W,b,\lambda )$
$L(W,b,\lambda )=\frac{1}{2}W^{T}W+\sum_{i=1}^{N}\lambda _{i}-\sum_{i=1}^{N}\lambda _{i}y_{i}W^{T}x_{i}-\underset{=0}{\underbrace{\sum_{i=1}^{N}\lambda _{i}y_{i}b}} \\ =\frac{1}{2}W^{T}W+\sum_{i=1}^{N}\lambda _{i}-\sum_{i=1}^{N}\lambda _{i}y_{i}W^{T}x_{i} \\ \frac{\partial L}{\partial W}=W-\sum_{i=1}^{N}\lambda _{i}y_{i}x_{i}=0$
得出： $\color{red}W^{*}=\sum_{i=1}^{N}\lambda _{i}y_{i}x_{i}\tag{6.3.3}$
这里我们可以看出 $W^{*}$ 是数据的线性组合。
得出 $\underset{W,b}{min}\;L(W,b,\lambda )$
接着将 $W^{*}$ 的结果代入 $L(W,b,\lambda )$
$\underset{W,b}{min}\;L(W,b,\lambda )=\frac{1}{2}(\sum_{i=1}^{N}\lambda _{i}y_{i}x_{i})^{T}(\sum_{j=1}^{N}\lambda _{j}y_{j}x_{j})+\sum_{i=1}^{N}\lambda _{i}-\sum_{i=1}^{N}\lambda _{i}y_{i}(\sum_{j=1}^{N}\lambda _{j}y_{j}x_{j})^{T}x_{i}\\ =\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\lambda _{i}\lambda _{j}y_{i}y_{j}x_{i}^{T}x_{j}-\sum_{i=1}^{N}\sum_{j=1}^{N}\lambda _{i}\lambda _{j}y_{i}y_{j}{\color{Red}{x_{j}^{T}x_{i}}}+\sum_{i=1}^{N}\lambda _{i} \\ =\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\lambda _{i}\lambda _{j}y_{i}y_{j}x_{i}^{T}x_{j}-\sum_{i=1}^{N}\sum_{j=1}^{N}\lambda _{i}\lambda _{j}y_{i}y_{j}{\color{Red}{x_{i}^{T}x_{j}}}+\sum_{i=1}^{N}\lambda _{i} \\ =-\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\lambda _{i}\lambda _{j}y_{i}y_{j}x_{i}^{T}x_{j}+\sum_{i=1}^{N}\lambda _{i}$
因此该优化问题就相当于：
$\color{red}\begin{cases} \underset{\lambda}{\max} \ -{1\over2}\sum_{i=1}^N\sum_{j=1}^N \lambda_i\lambda_jy_iy_jx_i^Tx_j+\sum_{i=1}^N\lambda_i\\ s.t. \ \ \lambda_i\ge 0 \\ \ \ \ \ \ \ \ \ \sum_{i=1}^N \lambda_iy_i=0 \end{cases}\tag{6.3.4}$

6.4 硬间隔SVM-模型求解（对偶问题之KKT条件）

上一节中使用到了对偶问题，这一节中会涉及到对偶问题中的KKT条件。

已有结论
- 目标函数
  $\begin{cases} \underset{\lambda}{\max} \ -{1\over2}\sum_{i=1}^N\sum_{j=1}^N \lambda_i\lambda_jy_iy_jx_i^Tx_j+\sum_{i=1}^N\lambda_i\\ s.t. \ \ \lambda_i\ge 0 \\ \ \ \ \ \ \ \ \ \sum_{i=1}^N \lambda_iy_i=0 \end{cases}$
  上节求 $\min \ L(w, b, \lambda)$ 的结果
  ${\partial L\over \partial b} =0 \Rightarrow \sum_{i=1}^N \lambda_iy_i=0\\ {\partial L\over \partial W} =0 \Rightarrow W^{*}=\sum_{i=1}^N\lambda_iy_ix_i$
$\color{blue}KKT条件$
- 首先定义该优化问题的KKT条件：
  $\color{red}\left\{\begin{matrix} \frac{\partial L}{\partial W}=0,\frac{\partial L}{\partial b}=0\\ \lambda _{i}(1-y_{i}(W^{T}x_{i}+b))=0\\ \lambda _{i}\geq 0\\ 1-y_{i}(W^{T}x_{i}+b)\leq 0 \end{matrix}\right.\tag{6.4.1}$
  该优化问题满足上述KKT条件，这是由于以下定理：
  $\color{red}原问题、对偶问题具有强对偶关系\Leftrightarrow 满足KKT条件$
- $\color{blue}松弛互补条件$
  KKT条件中 $\lambda _{i}(1-y_{i}(w^{T}x_{i}+b))=0$ 叫松弛互补条件，即 $\lambda _{i}$ 和 $1-y_{i}(w^{T}x_{i}+b)$ 总有一个为0。
  - 只有支持向量对应的 $\lambda _{i}$ 才可能有值 $(\lambda _{i}\neq 0)$ ，
  - 其他不在 $w\cdot x+b=1$ 和 $w\cdot x+b=-1$ 上的样本点对应的 $\lambda _{i}=0$ 。
求解 $\lambda$
我们通过求解下式求解 $\lambda$
$\begin{cases} \underset{\lambda}{\max} \ -{1\over2}\sum_{i=1}^N\sum_{j=1}^N \lambda_i\lambda_jy_iy_jx_i^Tx_j+\sum_{i=1}^N\lambda_i\\ s.t. \ \ \lambda_i\ge 0 \\ \ \ \ \ \ \ \ \ \sum_{i=1}^N \lambda_iy_i=0 \end{cases}$
- 带入所有数据点，通过约束条件代换，并且令偏导数为 $0$ ，可以很容易求出 $\lambda_i$ (若 $\lambda_i$ 为负数，则需要寻找边界点，即 $\lambda_i=0$ ，寻找到最值）。这个过程也是支持向量机算法计算量最大的地方！
- 最终通过 $\lambda_i$ 是否为 $0$ ，便可知道哪些点是支持向量，进而求出 $w^*,b^*$ .
求解 $b^{*}$
因为 $\exists (x_i,y_i), s.t. \ \ 1-y_i(W^Tx_i+b)=0$ ，则：
$y_k(W^Tx_k+b)=1\\ y_k^2(W^Tx_k+b)=y_k$
由于 $y^2_k=1$ ，则：
$y_k^2(W^Tx_k+b)=y_k\\ (W^Tx_k+b)=y_k\\ b^*=y_k-W^Tx$
把 $W^{*}=\sum_{i=1}^{N}\lambda _{i}y_{i}x_{i}$ 代入 $b^*$ 得：
$\color{red}b^*=y_k-\sum_{i=1}^N\lambda_iy_ix_i ^Tx_k\tag{6.4.2}$

由此可知分类决策函数 $f(x)=sign(W^{*T}x+b^*)$ ，超平面为 $\color{red}W^{*T}x+b^*$ 。

由于只有在支持向量上才有 $\lambda_i \ne0$ ，因此可以看出， $W^*,b^*$ 的值只和支持向量有关。

6.5 软间隔SVM-模型定义

6.5.1 概述

定义
上几节硬间隔SVM的前提条件是数据 $\color{red}线性可分$ ，在真实数据中，包含了很多噪声的数据线性不可分。如图：
因此需要引入软间隔SVM（Soft-Margin SVM），其主要思想是： $\color{red}允许一点点错误$ 。
数学模型
目标函数用增加一个损失函数来表示，用数学形式表示为：
$\underset{W,b}{min}\; \frac{1}{2}W^{T}W+loss$
Loss函数
$L o s s$ 函数有两种方式：
- 使用指示函数
  即使用误分类点的个数作为 $L o s s$ ：
  $Loss=\sum_{i=1}^{N}I\left \{y_{i}(W^{T}x_{i}+b)<1\right \}$
  
  其中 $I$ 为指示函数，若其中内容为真则返回 $1$ ，否则返回 $0$ 。 $L o s s$ 函数是不连续的，是跳跃的，其数学性质不好。
- 使用距离来表示
  $\left.\right\{\begin{matrix} 如果y_{i}(W^{T}x_{i}+b)\geq 1,Loss=0\\ 如果y_{i}(W^{T}x_{i}+b)< 1,Loss=1-y_{i}(W^{T}x_{i}+b) \end{matrix}$
  因此可以将 $L o s s$ 表示为： $Loss=max\left \{0,1-y_{i}(W^{T}x_{i}+b)\right \}\tag{6.5.1}$
  该函数为合页损失函数（hinge loss），令 $z=y_{i}(W^{T}x_{i}+b)$ ，则 $L o s s$ 对 $z$ 的图像如下：

6.5.2 模型定义

模型定义
我们选择距离来表示 $L o s s$ ，则软间隔SVM的优化问题可以写成：
$\left\{\begin{matrix} \underset{w,b}{min}\; \frac{1}{2}w^{T}w+C\sum_{i=1}^{N}max\left \{0,1-y_{i}(w^{T}x_{i}+b)\right \}\\ s.t.\; y_{i}(w^{T}x_{i}+b)\geq 1,i=1,2,\cdots ,N \end{matrix}\right.\tag{6.5.2}$

其中 $C$ 为超参数。
模型优化
引入 $\xi _{i}=1-y_{i}(w^{T}x_{i}+b),\xi _{i}\geq 0,i=1,2,\cdots ,N$ ，则该优化问题转化为：
$\color{red}\left\{\begin{matrix} \underset{w,b}{min}\; \frac{1}{2}w^{T}w+C\sum_{i=1}^{N}\xi _{i}\\ s.t.\; y_{i}(w^{T}x_{i}+b)\geq 1-\xi _{i},i=1,2,\cdots ,N \end{matrix}\right.\tag{6.5.3}$

上面的式子中，常数 $C$ 可以看作允许的错误⽔平，同时上式为了进⼀步消除 $m a x$ 符号，对数据集中的每⼀个观测，对数据集中的每⼀个观测，我们可以认为其⼤部分满⾜约束，但是其中部分违反约束，因此这部分约束变成 $y_{i}(w^{T}x_{i}+b)\geq 1-\xi _{i}$ 。
约束条件改变的解释

如图所示，圆圈类别支持向量上的虚线是 $w^Tx+b=1$ ，假设其间隔带中有点，其所处超平面为 $y_i(w^Tx_i+b)$ , 即 $1-\xi_i$ ，那么此超平面与支持向量的超平面距离便为 $\xi_i$ ，所以需要对约束函数进行改变，以致于每一个点的约束位置不同。
- 硬间隔中分隔的点的约束条件依然为 $\ge 1$ ，因为 $y_i(w^Tx_i+b)\ge 1$ ，所以 $1-y_i(w^Tx_i+b) \le 0$ ，所以 $\xi_i=0$ 。
- 软间隔而允许在间隔带内可以犯错的数据点，其约束函数便是 $y_i(w^Tx_i+b)\ge 1-\xi_i$ ，超平面为 $y_i(w^Tx_i+b)$ , 即 $1-\xi_i$ 。

软间隔SVM也是使用拉格朗日乘子法进行求解。可以参考看了这篇文章你还不懂SVM你就来打我。

6.6 总结

6.6.1 SVM优缺点

任何算法都有其优缺点，支持向量机也不例外。

支持向量机的优点是:
1. 由于SVM是一个凸优化问题，所以求得的解一定是全局最优而不是局部最优。
2. 不仅适用于线性线性问题还适用于非线性问题(用核技巧)。
3. 拥有高维样本空间的数据也能用SVM，这是因为数据集的复杂度只取决于支持向量而不是数据集的维度，这在某种意义上避免了“维数灾难”。
4. 理论基础比较完善(例如神经网络就更像一个黑盒子)。
支持向量机的缺点是:
1. 二次规划问题求解将涉及m阶矩阵的计算(m为样本的个数), 因此SVM不适用于超大数据集。(SMO算法可以缓解这个问题)
2. 只适用于二分类问题。(SVM的推广SVR也适用于回归问题；可以通过多个SVM的组合来解决多分类问题)