机器学习入门学习笔记：（4.1）SVM算法

最新推荐文章于 2023-07-29 14:38:54 发布

hongbin_xu

最新推荐文章于 2023-07-29 14:38:54 发布

阅读量2.9k

点赞数 6

分类专栏：机器学习机器学习笔记文章标签：机器学习 svm 算法

本文链接：https://blog.csdn.net/hongbin_xu/article/details/78508275

版权

机器学习同时被 2 个专栏收录

29 篇文章 14 订阅

订阅专栏

机器学习笔记

13 篇文章 23 订阅

订阅专栏

前言

支持向量机（Support Vector Machine，简称SVM）可以说是最经典的机器学习算法之一了。这几天再看SVM，参考了一些书籍和博客，这里把自己的笔记记录下来，以便以后复习查看。

间隔(margin)

分类学习最基本的思想就是：寻找一个超平面把数据集的样本空间划分成不同的样本。
比较直观的一种情况就是二维下的，如下图：
这里写图片描述（摘自百度百科）
直观上看，我们应该去寻找两类样本正中间的直线来划分这两类样本。图中有三根直线：先看绿线，不难发现，它穿过了黑色点集，分类肯定错误了；红线和蓝线都正确地分开了两类样本。然而，我们肯定都觉得蓝线不是一种很好的方法，因为它距离样本太近了，在这个数据集附近随机再取一个新的样本，很有可能就越过了它，导致分类错误；相对而言，红线更好，因为它到两类样本的距离都有一定距离，这也意味着，它对未知示例的泛化能力更强，是最鲁棒的。
以上也仅仅是直观上的理解，下面从数学层面进行分析。
在样本空间中我们用如下线性方程来描述划分超平面：

ω T x + b = 0

$\omega^T x + b = 0$
其中，

ω=(ω1,ω2,...,ωd) $\omega = ( \omega_1 , \omega_2 , ... , \omega_d )$ 为法向量，决定了超平面的方向；

b $b$ 为法向量，决定了超平面与原点之间的距离；

x $x$ 为输入样本。
假设训练样本集

D={(x1,y1),(x2,y2),...,(xm,ym)} $D=\left\{ (x_1, y_1),(x_2, y_2),...,(x_m, y_m) \right\}$ 。
接下来先推导样本空间中一个点到超平面距离的公式：

d = ∣ ∣ ω T x + b ∣ ∣ ∥ ω ∥

$d = \frac{\left|\omega^T x + b\right|}{\|\omega\|}$

补充：样本空间中一个点到超平面距离的公式证明

我们要求：点 $x_0(x_0^{(1)}, x_0^{(2)}, ..., x_0^{(n)})$ 到超平面的 $S:\omega^T x + b=0$ 的距离 $d$ 。
先设点 $x_1$ 是点 $x_0$ 在超平面 $S$ 上的投影，则肯定满足： $\omega^T x_1 + b=0$ 。
由于点 $x_1$ 是 $x_0$ 的投影，所以 $\overrightarrow {x_0 x_1}$ 与超平面 $S$ 垂直，则 $\overrightarrow {x_0 x_1}$ 与超平面 $S$ 的法向量平行。
我们知道超平面 $S$ 的法向量是： $\omega = ( \omega_1 , \omega_2 , ... , \omega_n )$ 。

| ω * x 0 x 1 - \to - - | = （ ∥ ω T ∥ ） * | x 0 x 1 - \to - - | * c o s < ω, x 0 x 1 - \to - - >

$|\omega * \overrightarrow {x_0 x_1}|=（\|\omega^T\|）*|\overrightarrow {x_0 x_1}| * cos<\omega,\overrightarrow {x_0 x_1}>$
由于平行，两向量的夹角为0度或者180度，

|cos<ω,x0x1−→−−>|=1 $|cos<\omega,\overrightarrow {x_0 x_1}>|=1$ .
所以：

| ω * x 0 x 1 - \to - - | = （ ∥ ω T ∥ ） * | x 0 x 1 - \to - - | = （ ∥ ω ∥ ） * d (1)

$\begin{align*} |\omega * \overrightarrow {x_0 x_1}| &= （\|\omega^T\|）*|\overrightarrow {x_0 x_1}|\\ &=（\|\omega\|）* d \tag*{(1)} \end{align*}$
又因为：

ω * x 0 x 1 - \to - - = ω 1 (x (1) 1 - x (1) 0) + ω 2 (x (2) 1 - x (2) 0) + . . . + ω n (x (n) 1 - x (n) 0) = (ω 1 x (1) 1 + ω 2 x (2) 1 + . . . + ω n x (n) 1) - (ω 1 x (1) 0 + ω 2 x (2) 0 + . . . + ω n x (n) 0)

$\begin{align*} \omega * \overrightarrow {x_0 x_1} &= \omega_1(x_1^{(1)}-x_0^{(1)} ) + \omega_2(x_1^{(2)}-x_0^{(2)} ) + ... + \omega_n(x_1^{(n)}-x_0^{(n)} ) \\ &= (\omega_1 x_1^{(1)} + \omega_2 x_1^{(2)} + ... + \omega_n x_1^{(n)}) - (\omega_1 x_0^{(1)} + \omega_2 x_0^{(2)} + ... + \omega_n x_0^{(n)}) \end{align*}$
这里要用到前面的条件了，因为

x1 $x_1$ 是超平面S内的点：

ω T x 1 + b = 0 ω 1 x (1) 1 + ω 2 x (2) 1 + . . . + ω n x (n) 1 + b = 0

$\omega^T x_1 + b=0\\ \omega_1 x_1^{(1)} + \omega_2 x_1^{(2)} + ... + \omega_n x_1^{(n)} + b = 0$
所以得到：

ω * x 0 x 1 - \to - - = - (ω 1 x (1) 0 + ω 2 x (2) 0 + . . . + ω n x (n) 0) - b = - (ω T x 0 + b) (2)

$\begin{align*} \omega * \overrightarrow {x_0 x_1} &= - (\omega_1 x_0^{(1)} + \omega_2 x_0^{(2)} + ... + \omega_n x_0^{(n)}) - b \\ &= -(\omega^T x_0 + b) \tag*{(2)} \end{align*}$

(1) $(1)$ 和

(2) $(2)$ 式子两者联立：

| ω * x 0 x 1 - \to - - | = （ ∥ ω ∥ ） * d = | - (ω T x 0 + b) |

$\begin{align*} | \omega * \overrightarrow {x_0 x_1} | &= （\|\omega\|）* d \\ &= |-(\omega^T x_0 + b)| \end{align*}$
所以：

d = | ω T x 0 + b | ∥ ω ∥

$d = \frac{|\omega^T x_0 + b|}{\|\omega\|}$

上面推导出了任意点 $x$ 到超平面的距离，接着往下走。
假设有一个超平面 $H:\omega^Tx+b=0$ 能正确地将样本划分开来，那么同时也肯定存在两个平行于 $H$ 的平面 $H1$ 和 $H2$ ：

H 1 : ω T x + b = 1 H 2 : ω T x + b = - 1

$H1:\omega^Tx+b=1 \\ H2:\omega^Tx+b=-1$
距离超平面

H $H$ 距离最近的正负样本正好就分别在

H1 $H1$ 和

H2 $H2$ 上，而这样的样本就是 支持向量。
这里写图片描述

那么，假设超平面能将正负样本正确分类，则要满足如下条件：
对于任意样本

(xi,yi) $(x_i, y_i)$ 有，若

yi=1 $y_i=1$ ，即为正样本，满足

ωTxi+b>0 $\omega^Tx_i+b>0$ ；若

yi=−1 $y_i=-1$ ，即为负样本，满足

ωTxi+b<0 $\omega^Tx_i+b<0$ 。
令：

{ω T x i + b \geq 1, y i = + 1 ω T x i + b \leq - 1, y i = - 1 (3)

$\begin{cases} \omega^Tx_i+b\geq1,y_i=+1 \\ \omega^Tx_i+b\leq-1,y_i=-1 \tag*{(3)} \end{cases}$
使用之前推出的任意点

x $x$ 到超平面的距离的公式，不难发现，超平面

H1 $H1$ 和

H2 $H2$ 之间的距离是：

d = 2 ∥ ω ∥

$d=\frac{2}{\|\omega\|}$
这个东西就叫做间隔(margin)。
而SVM的目标是就是找到一个超平面，使得间隔取到最大值，同时也要能保证正确地划分正负样本。

对偶问题

既然我们的目标是最大化间隔(margin)，那么可以给出如下问题：

max ω, b 2 ∥ ω ∥ s . t . y i (ω T x i + b) \geq 1, i = 1, 2, . . ., m

$\max_{\omega, b} \frac{2}{\|\omega\|} \\ s.t. \; y_i(\omega^Tx_i+b) \geq 1 , i=1,2,...,m$
其中的约束条件：

yi(ωTxi+b)≥1 $y_i(\omega^Tx_i+b) \geq 1$ 由前面的式子(3)的约束条件推导得到。
欲最大化

2∥ω∥ $\frac{2}{\|\omega\|}$ ，那么等价于最小化

∥ω∥ $\|\omega\|$ ，那么也等价于最小化

∥ω∥2 $\|\omega\|^2$ 。
那么上面的优化问题可以改写为：

min ω, b ∥ ω ∥ 2 2 s . t . y i (ω T x i + b) \geq 1, i = 1, 2, . . ., m

$\min_{\omega, b} \frac{\|\omega\|^2}{2} \\ s.t. \; y_i(\omega^Tx_i+b) \geq 1 , i=1,2,...,m$
好的，上示就是SVM的基本型。
接下来考虑如何求解这个问题，找到最合适的

ω $\omega$ 和

b $b$ 。
我们要用到拉格朗体乘数法进行求解，由于约束条件中还带有不等式约束，所以还需要考虑KKT条件。

补充：拉格朗日乘数法与KKT条件

通常的优化问题有三种：

无约束优化问题：

minxf(x)
- 约束条件有等式优化问题：
  $min x f (x) s . t . h i (x) = 0, i = 0, 1, . . ., n$ $\min_x{f(x)}\\ s.t. \; h_i(x)=0, i=0,1,...,n$
- 约束条件有不等式优化问题：
  $min x f (x) s . t . h i (x) = 0, g i (x) \leq 0, i = 0, 1, . . ., n$ $\min_x{f(x)}\\ s.t. \; h_i(x)=0, g_i(x) \leq 0 ,i=0,1,...,n$
- 分别考虑这几种情况吧：
  无约束优化问题：求导，令导数为0，求得的解就是极值，随后从中选出最优解。
  约束条件有等式优化问题：使用拉格朗日乘数法，把等式约束 $hi(x)$ 乘以一个拉格朗日系数并与 $f(x)$ 加在一个式子中，这个函数称为拉格朗日函数，而系数称为拉格朗日乘子。通过拉格朗日函数对各个变量求导，令其为零，可以求得候选值集合，然后验证求得最优值。
  
  $L (a, x) = f (x) + a * h i (x)$ $L(a,x)=f(x)+a*h_i(x)$
  约束条件有不等式优化问题：同样使用拉格朗体乘数法，最常使用的就是KKT条件。与前面一样，将所有等式约束与不等式约束和 $f(x)$ 写为一个函数，拉格朗日函数。通过一些条件，这些条件是可以求出最优值的必要条件，这个条件就是KKT条件。
  $L (a, b, x) = f (x) + a * g i (x) + b * h i (x)$ $L(a,b,x)=f(x)+a*g_i(x)+b*h_i(x)$
  
  我们主要考虑的就是约束条件有不等式优化问题，毕竟我们的SVM的基本式就是有不等式约束。
  
  拉格朗日乘数法
  
  假设给出如下问题：
  
  $min x f (x) s . t . h i (x) = 0, g i (x) \leq 0, i = 0, 1, . . ., n$ $\min_x{f(x)}\\ s.t. \; h_i(x)=0, g_i(x) \leq 0 ,i=0,1,...,n$
  对于等式约束与不等式约束，将其与 $f(x)$ 组合，构成拉格朗日函数：
  $L (a, b, x) = f (x) + a * g i (x) + b * h i (x)$ $L(a,b,x)=f(x)+a*g_i(x)+b*h_i(x)$ 。
  对各参数求导取0，联立求得最优值。
  
  KKT条件
  
  对于含有不等式约束的优化问题，将其转换为对偶问题：
  
  $max a, b min x L (a, b, x) s . t . a i \geq 0, i = 1, 2, . . ., n$ $\max_{a,b} \min_x L(a, b, x)\\ s.t. \; a_i \geq 0,i=1,2,...,n$
  其中 $L(a,b,x)$ 为拉格朗日函数。
  $L (a, b, x) = f (x) + a * g i (x) + b * h i (x)$ $L(a,b,x)=f(x)+a*g_i(x)+b*h_i(x)$
  KKT条件就是说，原始问题的最优值 $x^*$ 与对偶问题最优值 $a^*$ 和 $b^*$ 要满足如下关系：
  1. $∇_xL(a∗,b∗,x∗)=0,∇_aL(a∗,b∗,x∗)=0,∇_bL(a∗,b∗,x∗)=0$ ；
  2. $a^∗gi(x∗)=0$ ；
  3. $g_i(x∗)≤0$ ；
  4. $a_i≥0, h_j(x)=0$ ；
  当原始问题和对偶问题的解都满足KKT条件，并且 $f(x)$ ， $g(x)$ 都是凸函数是，原始问题与对偶问题的解相等。
  
  下面简单证明一下：
  就用前面给出的问题：
  
  $min x f (x) s . t . h i (x) = 0, g i (x) \leq 0, i = 0, 1, . . ., n$ $\min_x{f(x)}\\ s.t. \; h_i(x)=0, g_i(x) \leq 0 ,i=0,1,...,n$
  我们可以构造函数：
  $L (a, b, x) = f (x) + a * g i (x) + b * h i (x)$ $L(a,b,x)=f(x)+a *g_i(x)+b *h_i(x)$
  由于KKT条件还要有 $a \geq 0$ 。
  我们发现：
  $max a, b L (a, b, x) = max a, b (f (x) + a * g i (x) + b * h i (x))$ $\max_{a,b}L(a,b,x)=\max_{a,b}(f(x)+a* g_i(x)+b *h_i(x))$
  由于 $h_i(x)=0$ ，所以 $\max_{a,b} b*h_i(x))=0$ 。
  由于 $g_i(x) \leq 0$ ， $a \geq 0$ ，所以 $\max_{a,b} a *g_i(x))=0$ 。（这也正是拉格朗日常数的用意所在，只有在 $a*g(x)=0$ 时 $L(a,b,x)$ 才能取到最大值，这是KKT的第二个条件）
  最后发现：
  $max a, b L (a, b, x) = max a, b f (x) = f (x)$ $\max_{a,b}L(a,b,x)=\max_{a,b} f(x)=f(x)$
  因此我们最初的目标函数可以改写为：
  $min x f (x) = min x max a, b L (a, b, x)$ $\min_x f(x) = \min_x \max_{a,b}L(a,b,x)$
  如下展开对偶式子 $\max_{a,b} \min_x L(a,b,x)$ 可以发现我们的优化是满足 强对偶（对偶式子的最优值是等于原问题的最优值的）：
  假设最后取得的最优值是 $x^*$
  $max a, b min x L (a, b, x) = max a, b min x (f (x) + a * g i (x) + b * h i (x)) = max a, b (min x f (x) + a * min x g i (x) + b * min x h i (x)) = (max a, b f (x *) + max a, b (a * min x g i (x)) + max a, b (b * min x h i (x)))$ $\begin{align*} \max_{a,b} \min_x L(a,b,x) &= \max_{a,b} \min_x (f(x)+a* g_i(x)+b *h_i(x)) \\ &= \max_{a,b} (\min_x f(x)+a* \min_xg_i(x)+b *\min_xh_i(x)) \\ &= (\max_{a,b} f(x^*)+\max_{a,b}(a* \min_x g_i(x))+\max_{a,b}(b *\min_x h_i(x)))\\ \end{align*}$
  由于 $h_i(x)=0$ ，所以 $\max_{a,b}(b *\min_x h_i(x))=0$ 。
  由于 $g_i(x) \leq 0$ ， $a \geq 0$ ，所以 $\max_{a,b}(a* \min_x g_i(x))=0$ 。
  所以上式变为：
  $max a, b min x L (a, b, x) = (max a, b f (x *)) = f (x *) = min x max a, b L (a, b, x)$ $\begin{align*} \max_{a,b} \min_x L(a,b,x) &= (\max_{a,b} f(x^*))\\ &= f(x^*) \\ &= \min_x \max_{a,b}L(a,b,x) \end{align*}$
  这里就证明了，原问题与对偶问题的最优值是相同的。
  原问题可以转换为对偶问题求解
  
  好的，回到SVM的问题上来。
  我们希望优化的问题是：
  
  $min ω, b ∥ ω ∥ 2 2 s . t . y i (ω T x i + b) \geq 1, i = 1, 2, . . ., m$ $\min_{\omega, b} \frac{\|\omega\|^2}{2} \\ s.t. \; y_i(\omega^Tx_i+b) \geq 1 , i=1,2,...,m$
  建立拉格朗日函数：
  $L (ω, b, α) = ∥ ω ∥ 2 2 + \sum i = 1 m α i * (1 - y i (ω T x i + b))$ $L(\omega, b, \alpha) = \frac{\|\omega\|^2}{2} + \sum_{i=1}^{m} {\alpha_i * (1 - y_i(\omega^Tx_i+b))}$
  其中 $\alpha = (\alpha_1, \alpha_2, ..., \alpha_m)$ 为拉格朗日常数，且由KKT条件有： $\alpha \geq 0$ 。
  令 $L(\omega, b, \alpha)$ 分别对 $\omega$ 和 $b$ 求导取0：
  这里涉及矩阵求导，不了解请自行百度
  $\partial L \partial ω = \partial ( 1 2 ω T ω ) \partial ω + \partial \sum m i = 1 α i \partial ω - \partial \sum m i = 1 α i y i ω T x i \partial ω - \partial \sum m i = 1 α i y i b \partial ω = ω - \sum i = 1 m α i y i x i = 0$ $\begin{align*} \frac {\partial L}{\partial \omega}&=\frac {\partial (\frac{1}{2}\omega^T \omega)}{\partial \omega} + \frac {\partial \sum_{i=1}^{m}\alpha_i}{\partial \omega}-\frac {\partial \sum_{i=1}^{m} \alpha_i y_i \omega^T x_i}{\partial \omega}-\frac {\partial \sum_{i=1}^{m}\alpha_i y_i b}{\partial \omega} \\ &= \omega - \sum_{i=1}^{m} \alpha_i y_i x_i = 0 \end{align*}$
  $\partial L \partial b = \partial ( 1 2 ω T ω ) \partial b + \partial \sum m i = 1 α i \partial b - \partial \sum m i = 1 α i y i ω T x i \partial b - \partial \sum m i = 1 α i y i b \partial b = - \sum i = 1 m α i y i = 0$ $\begin{align*} \frac {\partial L}{\partial b}&=\frac {\partial (\frac{1}{2}\omega^T \omega)}{\partial b} + \frac {\partial \sum_{i=1}^{m}\alpha_i}{\partial b}-\frac {\partial \sum_{i=1}^{m} \alpha_i y_i \omega^T x_i}{\partial b}-\frac {\partial \sum_{i=1}^{m}\alpha_i y_i b}{\partial b} \\ &= - \sum_{i=1}^{m} \alpha_i y_i = 0 \end{align*}$
  所以得到两个式子;
  $ω = \sum i = 1 m α i y i x i$ $\omega = \sum_{i=1}^{m} \alpha_i y_i x_i$
  $0 = \sum i = 1 m α i y i$ $0 = \sum_{i=1}^{m} \alpha_i y_i$
  将它们代回到拉格朗日函数中，可以消去 $\omega$ 和 $b$ ：
  $L (ω, b, α) = ∥ ω ∥ 2 2 + \sum i = 1 m α i * (1 - y i (ω T x i + b)) = 1 2 ω T ω + \sum i = 1 m α i - \sum i = 1 m α i y i ω T x i - \sum i = 1 m α i y i b = 1 2 ω T \sum i = 1 m α i y i x i + \sum i = 1 m α i - \sum i = 1 m α i y i ω T x i - b \sum i = 1 m α i y i = - 1 2 ω T \sum i = 1 m α i y i x i + \sum i = 1 m α i - b * 0 = \sum i = 1 m α i - 1 2 \sum i = 1 m \sum j = 1 m α i α j y i y j x i x j$ $\begin{align*} L(\omega, b, \alpha) &= \frac{\|\omega\|^2}{2} + \sum_{i=1}^{m} {\alpha_i * (1 - y_i(\omega^Tx_i+b))} \\ &= \frac{1}{2}\omega^T \omega + \sum_{i=1}^{m}\alpha_i - \sum_{i=1}^{m} \alpha_i y_i \omega^T x_i - \sum_{i=1}^{m}\alpha_i y_i b \\ &= \frac{1}{2}\omega^T \sum_{i=1}^{m} \alpha_i y_i x_i + \sum_{i=1}^{m}\alpha_i - \sum_{i=1}^{m} \alpha_i y_i \omega^T x_i - b \sum_{i=1}^{m}\alpha_i y_i \\ &= -\frac{1}{2}\omega^T \sum_{i=1}^{m} \alpha_i y_i x_i + \sum_{i=1}^{m}\alpha_i - b * 0 \\ &= \sum_{i=1}^{m}\alpha_i - \frac{1}{2} \sum_{i=1}^{m} \sum_{j=1}^{m} \alpha_i \alpha_j y_i y_j x_i x_j \end{align*}$
  接下来求原问题的对偶问题：
  $m a x α m i n ω, b L (ω, b, α) = m a x α m i n ω, b (\sum i = 1 m α i - 1 2 \sum i = 1 m \sum j = 1 m α i α j y i y j x i x j) = m a x α (\sum i = 1 m α i - 1 2 \sum i = 1 m \sum j = 1 m α i α j y i y j x i x j)$ $\begin{align*} max_\alpha min_{\omega,b} L(\omega, b, \alpha) &= max_\alpha min_{\omega, b} (\sum_{i=1}^{m}\alpha_i - \frac{1}{2} \sum_{i=1}^{m} \sum_{j=1}^{m} \alpha_i \alpha_j y_i y_j x_i x_j) \\ &= max_\alpha (\sum_{i=1}^{m}\alpha_i - \frac{1}{2} \sum_{i=1}^{m} \sum_{j=1}^{m} \alpha_i \alpha_j y_i y_j x_i x_j) \end{align*}$
  KKT条件:
  $α \geq 0, \sum i = 1 m α i y i = 0 1 - y i * f (x i) \leq 0, α i * (1 - y i * f (x i)) = 0$ $\alpha \geq 0, \sum_{i=1}^{m}\alpha_i y_i = 0\\ 1-y_i*f(x_i) \leq 0, \alpha_i * (1-y_i*f(x_i)) = 0$
  
  到这里SVM的模型已经出来了。现在我们的问题是如何求出这些 $\alpha$ 。有许多程序工具包可以帮助我们求解出合适的 $\alpha$ 参数，当然还有一种十分快速高效的算法：SMO。我们不妨先放一放这个问题，先从结果分析看看。
  我们可以求出 $\alpha$ ，随后套用前面的公式求出 $\omega$ 和 $b$ ：
  
  $ω = \sum i = 1 m α i y i x i b = y i - ω T * x i$ $\omega=\sum_{i=1}^{m}\alpha_i y_i x_i\\ b=y_i-\omega^T*x_i$
  观察一下不难发现，这里的b可能有很多个解，因为每一个样本集 $(x_i, y_i)$ 都会对应一个b的可能取值。
  实际中采用一种更鲁棒的方法，即取所有的支持向量求解的b的均值：
  假设 $S=\{i|\alpha_i>0,i=1,2,...,m\}$ 为最后求得的支持向量集合。因为非支持向量的点对应的 $\alpha_i=0$ ，所以去掉那一部分，只保留支持向量即可求得 $b$ 。
  $b = 1 | S | \sum s \in S (y s - \sum i \in S α i y i x T i x s)$ $b= \frac{1}{|S|} \sum_{s\in{S}}(y_s-\sum_{i\in{S}}\alpha_iy_ix_i^Tx_s)$
  最后得到模型：
  
  $f (x) = ω T x + b = \sum i = 1 m α i y i x T i x + b$ $f(x)=\omega^T x + b = \sum_{i=1}^{m}\alpha_i y_i x_i^T x + b$
  由KKT条件：
  ${α \geq 0 α i * (1 - y i * f (x i)) = 0$ $\begin{cases} \alpha \geq 0 \\ \alpha_i * (1-y_i*f(x_i)) = 0 \end{cases}$
  分类讨论可以知道，只有可能有两种情况：
  - $\alpha_i = 0$ ，此时这个样本在模型中不起作用，因为结果是0。
  - $\alpha_i > 0$ ，那么，一定有 $1-y_i*f(x_i) = 0$ ，则： $y_i*f(x_i) = 1$ 。表示这个样本在最大间隔边界上，是支持向量。
  在这个模型中，除了支持向量的 $\alpha_i > 0$ 以外，其他样本都不起作用。如此一来，大部分样本都不会被保留，只会保留支持向量。
  
  这次就先到这里吧，下次在介绍svm的核函数、软间隔以及SMO算法等概念。前面推导分析了基本的SVM模型，也介绍了拉格朗日常数法与KKT条件的应用。不得不说，打公式很累啊。
  
  参考资料：
  《机器学习》周志华
  http://blog.csdn.net/dawnranger/article/details/53133450