SVM学习笔记-软间隔SVM

最新推荐文章于 2024-10-05 09:43:15 发布

土肥宅娘口三三

最新推荐文章于 2024-10-05 09:43:15 发布

阅读量2.3w

点赞数 15

分类专栏：机器学习文章标签： SVM 机器学习软间隔SVM

本文链接：https://blog.csdn.net/robin_xu_shuai/article/details/77051258

版权

机器学习专栏收录该内容

31 篇文章 9 订阅

订阅专栏

$\text{SVM}$ 学习笔记第四篇

Soft-Margin Support Vector Machine

这篇介绍的是 $\text{Soft-Margin SVM}$ ，也就是再将 $SVM$ 做一些变化，或者是针对 $\text{Hard-Margin SVM}$ 做一些改进，放宽 $\text{SVM}$ 的限制，可以允许存在一些误分类的点。

0 - 回顾

在上一篇中介绍了对偶形式的 $\text{Kernel SVM}$ ，在对偶 $\text{SVM}$ （从某个角度来说，对偶形式的 $SVM$ 得到了 $primal\ SVM$ 的內积形式）中利用核函数可以很方便的解决很复杂的非线性问题，例如使用高斯核函数可以在无限维度的空间中寻找超平面。但是正如我们之前说到过的，高斯 $SVM$ 在参数选择的不恰当的时候，也会出现 $overfit$ 的情况。为什么 $SVM$ 也会出现过拟合的情况呢(虽然有最大间隔的保证)？一个原因可能是因为我们选择的特征转化太过于 $powerful$ ，就算存在最大间隔的限制，最终也还是会出现过拟合。另外一个原因是因为我们坚持要把正例和负例完美的分开，导致会被一些噪声点影响。

1 - 容忍一些噪声

现在我们知道了 $hard\ SVM$ 可能由于要求完全正确的划分正例和负例而被一些噪声点影响导致过拟合，那么回想一下，以前我们是怎么处理这些噪声数据的呢？

1.1 - pocket算法

在 $pocket$ 算法中，由于数据不是线性可分的，所以我们真的没有办法找到一条线将数据完美的分开，所以我们退而求其次：找一条线，这条线在数据上犯的错误最少。即我们想要最小化如下的式子：

m i n w, b \sum n = 1 N | [y n \neq s i g n (w T x n + b)] |

$\mathop {min} \limits_{w, b} \sum_{n=1}^N\ |[y_n \ne sign(w^Tx_n + b)]|$

这里： $1 = |[\bigcirc]|$ ，如果 $\bigcirc$ 成立； $0 = |[\bigcirc]|$ ，如果 $\bigcirc$ 不成立。

1.2 - 硬间隔支撑向量机

而我们之前提到的 $hard\ margin\ SVM$ 如下：

m i n w s . t . 1 2 w T w y n (w T x n + b) \geq 1 f o r a l l n (1) (2) (3)

$\begin{align} \mathop {min} \limits_{w} \quad & \frac12w^Tw \\ s.t. \quad & y_n(w^Tx_n +b ) \ge 1 \\ & for\ all\ n \end{align}$

即要求所有的样本点都要正确划分，并且在这个基础上找到间隔最大的。

1.3 - pocket + hard margin SVM

结合 $pocket$ 算法对错误的容忍和 $SVM$ 算法对于间隔最大化的要求得到如下的模型（ $soft\ margin\ SVM$ ）：约束中的第二个条件表明允许存在一些点不满足原来的 $SVM$ 的要求，即 $y_n(w^Tx_n +b )$ 可以小于 $1$ ；但是要尽量减少这样的点，这一目标体现在我们的 $object\ function$ 中： $\mathop {min} \limits_{w} \cdots+ C \sum_{n=1}^N|[y_n \ne sign(w^Tz_n + b)]|$ ，即要最小化犯错误的数据的个数。那么现在我们不仅仅想要 $w$ 的长度最小，这是为了保证 $margin$ 最大，而且想要犯错误的点的数量最少，所以引入了参数 $C$ 来权衡两者之间的关系，表示两者之间的相对重要性。 $C$ 比较大的时候表示我们想要犯更少的错误， $C$ 比较的小的时候表示我们想要更大的间隔。

\begin{aligned} (4) & \underset{w}{m i n} & \frac{1}{2} w^{T} w + C \sum_{n = 1}^{N} | [y_{n} \neq s i g n (w^{T} z_{n} + b)] | \\ (5) & s . t . & y_{n} (w^{T} x_{n} + b) \geq 1 f o r c o r r e c t n \\ (6) & y_{n} (w^{T} x_{n} + b) \geq - \infty f o r i n c o r r e c t n \end{aligned}

$\begin{align} \mathop {min} \limits_{w} \quad & \frac12w^Tw + C \sum_{n=1}^N|[y_n \ne sign(w^Tz_n + b)]|\\ s.t. \quad & y_n(w^Tx_n +b ) \ge 1\ for\ correct\ n\\ & y_n(w^Tx_n +b ) \ge -\infty\ for\ incorrect\ n\\ \end{align}$

1.4 - 软间隔支撑向量机

软间隔支撑向量机可以理解为我们牺牲了在某些点上必须正确划分的限制，来换取更大的分隔间隔。

上述软间隔 $SVM$ 的表达可以合并为下式：

m i n w s . t . 1 2 w T w + C \sum n = 1 N | [y n \neq s i g n (w T z n + b)] | y n (w T x n + b) \geq 1 - \infty \cdot | [y n \neq s i g n (w T x n + b)] | (7) (8)

$\begin{align} \mathop {min} \limits_{w} \quad & \frac12w^Tw + C \sum_{n=1}^N|[y_n \ne sign(w^Tz_n + b)]|\\ s.t. \quad & y_n(w^Tx_n +b ) \ge 1 - \infty \centerdot |[y_n \ne sign(w^Tx_n+b)]| \end{align}$

上述模型存在缺点：

因为 $|[\bigcirc]|$ 不是一个线性运算，所以上述问题不再是一个二次规划问题，这样的话就不可以使用之前所介绍的 $dual, Kernel$ 的机制。
对所有的错误一视同仁，不区分犯错的数据点离分隔超平面的远近。

为了解决这些问题，尤其是第二个问题，我们提出了下面的新的和上面想法类似的软间隔 $SVM$ 表达方式，在这种新的表达方式中，首先可以区分小错和大错，其次可以保证还是一个 $QP$ 问题，软间隔支持向量机的原始形式：

m i n w, ξ, b s . t . 1 2 w T w + C \sum n = 1 N ξ n y n (w T x n + b) \geq 1 - ξ n ξ n \geq 0 (9) (10) (11)

$\begin{align} \mathop {min} \limits_{w, \xi, b} \quad & \frac12w^Tw + C \sum_{n=1}^N\xi_n\\ s.t. \quad & y_n(w^Tx_n +b ) \ge 1 - \xi_n\\ & \xi_n \ge 0 \end{align}$

在这里，我们把错误记录在一个 $\xi_n(\xi_n \ge 0)$ 当中。这个变量记录了 $(x_n , y_n)$ 犯了多大的错。然后在目标函数中最小化 $\sum_{n=1}^N\ \xi_n$ 。事实上，当 $y_n(W^Tx_n+b) \ge 1$ ，说明该样本点划分正确，因为要最小化所有的 $\xi_n$ 的和，所以可得 $\xi_n = 0 \longrightarrow$ 该样本没有犯错；如果 $y_n(W^Tx_n+b) < 1$ ，说明该样本点没有划分正确， $\xi_n = 1 - y_n(W^Tx_n+b) \longrightarrow$ 该样本犯了 $1 - y_n(W^Tx_n +b)$ 的错。

假如 $y_1(w^Tz_1+b) = -10$ ，那么相应的 $\xi_1 = \ ?$ $\longrightarrow$ $\xi_1 = 10 + 1 = 11$

经过这样的变化，新的问题就变成了一个 $QP(linear\ constraints\ and\ quadratic\ objective)$ 问题。这样一来，我们将 $pocket$ 和 $SVM$ 融合在一起的这个不好解决的问题通过变形变成了比较熟悉的形式。

我们将 $\xi$ 称为 $margin\ violation$ 。参数 $C$ 用来权衡间隔 $large\ margin$ 和 $\sum_{n=1}^N\xi_n$

$C$ 大 $\longrightarrow$ 表明我们更 $care$ 的是划分的正确性， $margin$ 可以“瘦”一点，但是划分错误的点要少一点。
$C$ 小 $\longrightarrow$ 表明我们想要的是更“胖”一点的边界，划分错误的点多一点没有关系。

现在这个问题变成了一个标准的 $QP$ 问题，变量有 $\tilde{d}+1+N$ 个，限制条件有 $2N$ 个。

2 - 对偶问题

通过上面的分析得到了 $soft$ - $margin\ SVM$ ，即我们允许有一些误分类的点存在以使得 $margin$ 足够的大，或者说避免拟合 $noise$ 。现在推导该问题的对偶问题。得出了对偶问题就可以很方便的使用特征转化。

2.1 - 软间隔支持向量机的原始形式

m i n w, b, ξ s . t . 1 2 w T w + C \cdot \sum n = 1 N ξ n y n (w T z n + b) \geq 1 - ξ n ξ n \geq 0 f o r a l l n (34) (35) (36)

$\begin{align} \mathop {min} \limits_{w, b, \xi} \quad & \frac12w^Tw + C \centerdot \sum_{n=1}^{N} \ \xi_n \\ s.t. \quad &y_n(w^Tz_n+b)\ge1-\xi_n \\ & \xi_n \ge 0\ for\ all\ n \end{align}$

2.2 - 拉格朗日函数

引入拉格朗日乘子得到如下的拉格朗日函数：需要注意的是，先把条件转换为 $\le$ 的形式。

L (w, b, ξ, α, β) = 1 2 w T w + C \cdot \sum n = 1 N ξ n + \sum n = 1 N α n \cdot (1 - ξ n - y n (w T z n + b)) + \sum n = 1 N β n \cdot (- ξ n)

$L(w, b, \xi, \alpha, \beta) = \frac12w^Tw + C \centerdot \sum_{n=1}^{N}\xi_n + \sum_{n=1}^{N}\alpha_n \centerdot(1 - \xi_n - y_n(w^Tz_n + b)) + \sum_{n=1}^{N}\beta_n \centerdot(-\xi_n)$

接下来就可以使用 $max\ min$ 来得到对偶问题，然后使用 $\text{KKT condition}$ 来做简化。

2.3 - 拉格朗日对偶

m a x α n \geq 0, β n \geq 0 (m i n w, b, ξ L (w, b, ξ, α, β))

$\mathop {max} \limits_{\alpha_n \ge 0,\ \beta_n \ge 0}\quad (\mathop {min} \limits_{w,\ b,\ \xi} \quad L(w, b, \xi, \alpha, \beta))$

m a x α n \geq 0, β n \geq 0 (m i n w, b, ξ 1 2 w T w + C \cdot \sum n = 1 N ξ n + \sum n = 1 N α n \cdot (1 - ξ n - y n (w T z n + b)) + \sum n = 1 N β n \cdot (- ξ n))

$\mathop {max} \limits_{\alpha_n \ge 0,\ \beta_n \ge 0}\quad (\mathop {min} \limits_{w,\ b,\ \xi} \frac12w^Tw + C \centerdot \sum_{n=1}^{N}\xi_n + \sum_{n=1}^{N}\alpha_n \centerdot(1 - \xi_n - y_n(w^Tz_n + b)) + \sum_{n=1}^{N}\beta_n \centerdot(-\xi_n))$

首先对 $\xi_n$ 求偏导使其为 $0$ ，这是根据 $KKT\ condition$ 得到的，最优解要满足对原始问题中的每一个变量的微分为 $0$ 。

\frac{\partial L}{\partial ξ_{n}} = C - α_{n} - β_{n} = 0

$\frac{\partial L}{\partial \xi_n} = C - \alpha_n - \beta_n = 0$

也就是说在最佳解上， $\alpha_n+\beta_n$ 要等于 $C$ ，即：

C = α_{n} + β_{n}

$C = \alpha_n + \beta_n$

那么就可以把式子中的所有的 $\beta$ 替换掉，只剩下 $\alpha_n$ （这样是为了长的和原来的 $hard$ - $margin$ 的对偶问题的形式比较像）： $\beta_n =C - \alpha_n$ 。因为 $\alpha_n \ge 0,\ \beta_n \ge 0$ ，所以可以得到 $C \ge \alpha_n \ge 0$ 。

那么可以整理为：

⟶ ⟶ m a x α n \geq 0, β n \geq 0 (m i n w, b, ξ 1 2 w T w + C \cdot \sum n = 1 N ξ n + \sum n = 1 N α n \cdot (1 - ξ n - y n (w T z n + b)) + \sum n = 1 N (C - α n) \cdot (- ξ n)) m a x C \geq α n \geq 0 (m i n w, b, ξ 1 2 w T w + \sum n = 1 N α n \cdot (1 - y n (w T z n + b)) + \sum n = 1 N (C - α n) \cdot (- ξ n) + C \cdot \sum n = 1 N ξ n - \sum n = 1 N α n ξ n) m a x C \geq α n \geq 0 (m i n w, b, ξ 1 2 w T w + \sum n = 1 N α n \cdot (1 - y n (w T z n + b))) (40) (41) (42)

$\begin{align} & \mathop {max} \limits_{\alpha_n \ge 0,\ \beta_n \ge 0}\quad (\mathop {min} \limits_{w,\ b,\ \xi} \frac12w^Tw + C \centerdot \sum_{n=1}^{N}\xi_n + \sum_{n=1}^{N}\alpha_n \centerdot(1 - \xi_n - y_n(w^Tz_n + b)) + \sum_{n=1}^{N}(C - \alpha_n) \centerdot(-\xi_n)) \\ \longrightarrow & \mathop {max} \limits_{C \ge \alpha_n \ge 0}\quad (\mathop {min} \limits_{w,\ b,\ \xi} \frac12w^Tw + \sum_{n=1}^{N}\alpha_n \centerdot(1 - y_n(w^Tz_n + b)) + \sum_{n=1}^{N}(C - \alpha_n) \centerdot(-\xi_n) + C \centerdot \sum_{n=1}^{N}\xi_n - \sum_{n=1}^{N}\alpha_n\xi_n) \\ \longrightarrow & \mathop {max} \limits_{C \ge \alpha_n \ge 0}\quad (\mathop {min} \limits_{w,\ b,\ \xi} \frac12w^Tw + \sum_{n=1}^{N}\alpha_n \centerdot(1 - y_n(w^Tz_n + b))) \\ \end{align}$

这样我们就去掉了式子中的 $\xi_n$ 和 $\beta_n$ 。得到了简单的形式：

m a x C \geq α n \geq 0, β n = C - α n (m i n w, b 1 2 w T w + \sum n = 1 N α n \cdot (1 - y n (w T z n + b)))

$\mathop {max} \limits_{C \ge \alpha_n \ge 0, \beta_n = C-\alpha_n}\quad (\mathop {min} \limits_{w,\ b} \frac12w^Tw + \sum_{n=1}^{N}\alpha_n \centerdot(1 - y_n(w^Tz_n + b)))$

这个时候我们发现里面的最小化问题是和硬间隔 $SVM$ 中的对偶问题中的形式一毛一样的。那么同样的我们可以对 $b$ 偏导，得到 $\sum_{i = 1}^{N} \alpha_n y_n = 0$ 。然后对 $w$ 求导可以得到 $w = \sum_{i =1}^{N}\alpha_ny_nz_n$ 。

最后我们可以得到一个标准的软间隔的 $SVM$ 的对偶问题如下。

2.4 - 软间隔支持向量机的对偶形式

$\text{Standard Soft-Margin SVM DUAL}$

m i n α s . t . 1 2 \sum n = 1 N \sum m = 1 N α n α m y n y m z T n z m - \sum n = 1 N α n \sum n = 1 N α n y n = 0 C \geq α n \geq 0 n = 1, 2, \dots, N (83) (84) (85) (86)

$\begin{align} \mathop {min} \limits_{\alpha} \quad & \frac12\sum_{n=1}^{N}\sum_{m=1}^{N}\alpha_n\alpha_my_ny_mz_n^Tz_m - \sum_{n=1}^{N}\alpha_n \\ s.t. \quad&\sum_{n=1}^{N}\alpha_ny_n = 0 \\ & C \ge \alpha_n \ge 0 \\ & n = 1, 2, \cdots, N \end{align}$

唯一和硬间隔 $SVM$ 不同的是 $\alpha_n$ 有一个上界 $C$ 。

3 - 软间隔SVM中隐藏的信息

3.1 - 软间隔SVM+Kernel

在得到了软间隔 $SVM$ 的对偶形式之后，我们就可以使用之前讨论的 $kernel$ 函数来做更多的事情。 $\text{Kernel Soft-Margin SVM}$ 算法如下：

$q_{n,m} = y_ny_mK(x_n,x_m); \quad p = -1_N; \quad (A, c)$
$\alpha \longleftarrow QP(Q_D, p, A, c)$
$b = ?$
返回支撑向量 $SVs$ 和与之相对应的 $\alpha_n$ ，还有参数 $b$ ，那么就得到了带有核函数的软间隔分类器： $g_{S V M} (x) = s i g n (\sum_{S V} α_{n} y_{n} K (x_{n}, x) + b)$ $g_{SVM}(x) = sign(\sum_{SV} \alpha_ny_nK(x_n, x) + b)$

这样看来，软间隔和硬间隔的 $SVM$ 几乎是一样的，相对于硬间隔来说，软间隔更加灵活一点，因为我们可以通过调节 $C$ 的值来控制我们更加关心的是分隔超平面的间隔大一点，还是分类错误的点少一点。并且不再要求我们的数据是线性可分的。所以软间隔通常要比硬间隔更加的有实际的应用价值。现在唯一的问题是偏置 $b$ 的求法。

3.2 - b的求法

对于 $\text{hard margin SVM}$ ，根据 $KKT$ 条件，有 $\alpha_n(1 - y_n(w^Tz_n + b)) = 0$ （我们把这样的条件称为 $complementary\ slackness$ ），这样的话，我们只需要找到一个 $\alpha_s \ge 0$ ，那么就可以得到 $\ y_s(w^Tz_s + b) = 1$ ，从而得到 $\ b =y_s - w^Tz_s$ 。

同样的对于软间隔 $SVM$ 来说，我们也可以找到相应的 $somplementary\ slackness$ 如下：

$α n (1 - ξ n - y n (w T z n + b)) = 0 a n d (C - α n) ξ n = 0$ $\alpha_n(1 - \xi_n - y_n(w^Tz_n + b)) = 0\quad and\quad (C - \alpha_n)\xi_n = 0$

所以如果我们找到了一个支撑向量，也就是一个 $\alpha_s \ge 0$ ，那么根据第一个式子可以得到 $1 - \xi_n - y_n(w^Tz_n + b) = 0$ ，进一步可以得到 $b = y_s - y_s\xi_s - w^Tz_s$ 。
这个式子告诉我们如果想要求得 $b$ ，就需要先知道 $\xi_s$ ，但是我们没有办法得到 $\xi_s$ 。但是如果 $\xi_s$ 是0的话，那么我们就可以得到 $b = y_s - w^Tz_s$ 。要想让 $\xi_s = 0$ ，那我们就要确保 $C - \alpha_s \ne 0$ ，即 $C \ne \alpha_s$ ，那就只能是 $\alpha_s < C$ 。我们把 $\alpha_s < C$ 对应的支撑向量成为 $free\ vector$ 。可知 $free\ vector$ 对应的 $\xi_s = 0$ 。所以就成功的算出了 $b = y_s - w^Tz_s$ 。

这样我们就终于得到了 $b$ 的求法：
我们需要找一个 $Support\ Vector$ ，并且不是一般的 $Support\ Vector$ ，而是 $free\ support\ vector\ (x_s, y_s)$ ，这样的支撑向量对应的 $C> \alpha_s > 0$ ，这样就可以求解得到 $b$ ：

$b = y_{s} - \sum_{S V} α_{n} y_{n} K (x_{n}, x_{s})$ $b = y_s - \sum_{SV}\alpha_ny_nK(x_n, x_s)$

3.3 - 使用高斯核的软间隔SVM的表现

$\text{Soft-Margin Gaussian SVM in Action}$

$C$ 越大，对噪声的容忍度就越小，就越容易 $overfit$ 。所以就算我们使用的是带有高斯核函数的软间隔 $SVM$ ，也是由可能会出现过拟合的情况，所以这就需要我们认真的挑选参数 $(\gamma, C)$ ， $\gamma$ 是高斯核函数的参数， $C$ 是软间隔分类的 $SVM$ 的参数。

3.4 - 软间隔SVM背后的信息

我们之前使用了 $complementary\ slackness$ （如下）成功的求解了参数 $b$ 。现在再来看看通过这两个条件我们可以得到什么关于soft-margin SVM的信息。

$α_{n} (1 - ξ_{n} - y_{n} (w^{T} z_{n} + b)) = 0$ $\alpha_n(1 - \xi_n - y_n(w^Tz_n + b)) = 0$

$(C - α n) ξ n = 0$ $(C - \alpha_n)\xi_n = 0$

根据这两个条件，我们可以所有的数据点划分为三种：（根据 $\alpha$ 的取值）

$non\ SV(0 = \alpha_n)$ ：因为 $\alpha_n = 0$ ，所以 $\xi_n =0$ ，也就是对应着那些没有违反边界的点。所以这些点会离分割面很远，也有极少数的点可能在分隔边界上。
$free\ support\ vector (0 < \alpha_n < C)$ ：因为 $0 < \alpha_n < C$ 所以 $\xi_n = 0$ ，并且 $1 = y_n(w^Tz_n + b)$ ，即这些点正好是位于分隔边界上的点，如图中使用方框框起来的点。并且我们正是利用了这些点来求出了 $b$ 。

$bounded\ SV(\alpha_n = C)$ :那么根据第一个条件， $\xi_n = 1 - y_n(w^Tz_n + b)$ ，这个时候 $\xi_n$ 记录了该点“犯了多大的错”。如图中三角形的点。我们称这样的点为 $bounded\ SV$ ，这些点在边界上，或者是违反了边界。

思考题：
假设数据集的大小为10000，使用 $soft\ margin\ SVM$ 之后，得到了1126个 $SV$ ，其中有1000个 $bounded\ SV$ ，那么 $E_{in}(g_{SVM})$ 的取值范围是多少呢？

答案： $0.0000 \le E_{in}(g_{SVM}) \le 0.1000$ ，因为 $bounded\ SV$ 是可能会越界（也就是划分错误）或者正好在边界上的点，所以当这些 $bounded\ SV$ 都在边界上的时候， $E_{in}(g_{SVM}) = 0$ ；当这些 $bounded\ SV$ 都越界了的时候， $E_{in}(g_{SVM}) = 0$

4 - 模型的选择

4.1 - 各种参数下的表现

上图表示的是，在不同的参数 $\gamma$ 和 $C$ 的选择下，使用 $\text{Soft-Margin Gaussian SVM}$ 在数据上的表现，从左到右为逐渐增大的 $C$ （要更少误分的点），从下到上为逐渐增大的 $\gamma$ （要更加复杂的特征）。

4.2 - 如何做出选择

通过计算比较交叉检验 $cross\ validation$ 的结果。

我们之前曾经讲过，如果将 $\text{cross validation}$ 应用到极致，那么就会得到另一种验证的方法： $leave$ - $one$ - $out\ Cross\ Validation$ ，也就是只留一笔资料做验证，其他的都做训练。 $leave$ - $one$ - $out\ Cross\ Validation$ 在 $SVM$ 上有一个很有趣的结果。

$E l o o c v \leq # S V N$ $E_{loocv} \le \frac{\#SV}{N}$
也就是说，如果有数据的资料量是1000，其中有100个SV，那么 $E_{loocv}$ 会小于0.1。事实上，如果现在有 $N= 1000$ 笔资料，使用 $SVM$ 求解之后得到 $(\alpha_1， \alpha_2，\alpha_3，\cdots， \alpha_{N})$ 是最优解并且 $\alpha_{N} = 0$ ，也就是说最后一笔资料不是支撑向量。那么如果将前999笔资料喂给 $SVM$ 算法还是会得到 $(\alpha_1， \alpha_2，\alpha_3，\cdots， \alpha_{N-1})$ 是新问题的最优解。也就是说， $g^- = g$ 当 $leave\ out\ non$ - $SV$ 。所以 $e_{non-SV} = err(g^-, non\ SV) = err(g, non\ SV) = 0$ ，而 $e_{SV} \le 1$

所以也可以使用 $SV$ 的数量来进行模型的选择：

但是需要注意的是， $SV$ 的数量首先不是连续的，其次这只是一个上限，通常可以使用这个方法来排除那些比较差的情形，即排除有太多的 $SV$ 的模型。然后再剩下的比较好的模型中使用交叉验证来进行模型的选择。

5 - 总结

本篇记录了 $SVM$ 的一个最常用的形式的 $soft$ - $margin\ SVM$ 的提出和求解，这个模型的出发点是，我们可以容忍一些错误的发生，即，可以容忍分隔超平面对某些点划分错误，所以我们在模型中引入了对错误的衡量，将其作为惩罚性加在目标方程中。新的模型同样是一个二次规划问题，所以我们推导了该问题的对偶问题，发现对偶问题和硬间隔的 $SVM$ 几乎完全相同，不同的地方仅仅是 $\alpha_n$ 有一个上界 $C$ 。并且对偶问题的解 $\alpha$ 使得我们可以将数据分为三类。这对于做资料的分析非常的有用。
这四篇是 $soft$ - $margin$ 的 $SVM$ 的完整的讲解，从 $hard$ - $margin$ 的 $SVM$ ，到对偶问题的导出，到引入核函数，最后到 $soft$ - $margin$ 。