支持向量机（SVM）——斯坦福CS229机器学习个人总结（三）

最新推荐文章于 2024-03-30 16:52:57 发布

NJiahe

最新推荐文章于 2024-03-30 16:52:57 发布

阅读量7.3k

点赞数 20

分类专栏：机器学习个人总结文章标签：机器学习 svm 对偶问题核函数 SMO算法

本文链接：https://blog.csdn.net/sinat_37965706/article/details/70666682

版权

本文详细介绍了支持向量机（SVM）的基本概念，包括函数间隔、几何间隔、最优间隔分类器，并深入探讨了SVM的对偶问题、核函数和SMO算法。通过引入核函数解决线性不可分问题，以及软间隔分类器处理噪声数据。SVM的优化和求解过程，包括坐标上升法和SMO算法的求解思路，为理解SVM的实现提供了全面的解析。

摘要由CSDN通过智能技术生成

鉴于我刚开始学习支持向量机（Support vector machines，简称SVM）时的一脸懵逼，我认为有必要先给出一些SVM的定义。

下面是一个最简单的SVM：

图一

分类算法：支持向量机（SVM）是一个分类算法（机器学习中经常把算法称为一个“机器”），它的目标是找到图中实线所表示的决策边界，也称为超平面（Hyperplane）
支持向量（Support vectors）：支持向量就是图中虚线穿过的数据点（两个×与一个O），直观上来看，它们确定了超平面的位置——超平面与过同一类的两个支持向量（两个×）的直线平行，并且两类支持向量到超平面的距离相等
与logistic回归的对比：SVM与logistic回归用的是相同的模型，但是处理方式不一样——logistic回归用概率的方式求解模型（最大似然估计），SVM从几何的角度解析；另外在logistic回归中，每一个数据点都会对分类平面产生影响，在SVM中它却只关注支持向量（如果支持向量无变化，增加或者删除一些远处的数据点，产生的超平面还是一样的）——所以产生了这两个不同的算法，但是它们还是比较相似的

明明是SVM算法却在这里提到logistic回归模型是为了作为源头引出SVM的推导，至于更深的背景，比如SVM被认为几乎是最好的监督学习啦，SVM是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的啦，SVM作为统计机器学习与传统机器学习的本质区别啦……目前的我还没有形成一个整体的、完善的认识，虽然下一份总结里就要说到学习理论与结构风险最小化，但是对于海面之下的冰山，我暂时还没法看到。在这里我只是想老老实实地把SVM从推导，到转换与优化，到最后求解的过程做一个总结写下来。

还需要说明的是，图一是最简单的SVM，它是线性可分的，并且从图一上来看它是没有噪点的，第一章“SVM的推导”可以把这个漂亮的线性可分的模型推导出来。
但是实际的情况不可能这么完美。当数据线性不可分的时候，我们需要引入核函数在更高维的空间里去寻找这个超平面（数据在更高维的空间里会更加线性可分）；当噪点存在的时候，我们引入软间隔分类器，这时候在支持向量附近，允许有一些噪点被分错，即允许误差的存在。而这两点都是在将目标函数转化为对偶问题之后实现的。这些都会在第二章“SVM转换与优化”中介绍。

1、SVM的推导

1.1、起源

SVM与logistic回归使用了相同的模型，现在让我们来回顾一下熟悉的logistic回归模型：

h θ (x) = g (θ T x) = 1 1 + e - θ T x (1)

$h_\theta(x)=g(\theta^Tx)=\frac{1}{1+e^{-\theta^Tx}}\tag{1}$
其中：

g (z) = 1 1 + e - z (2)

$g(z)=\frac{1}{1+e^{-z}}\tag{2}$
并且其图像如下图：

图二
图像的输出是“分类结果

g(z) $g(z)$ 是1的概率”，它的取值范围是

(0,1) $(0,1)$ ，一般来说以0.5为界，当

g(z) $g(z)$ 是1的概率大于0.5的时候，把

x $x$ 分类为1，当

g(z) $g(z)$ 是1的概率小于0.5的时候，把

x $x$ 分类为0，这样，虽然它的直接输出是

(0,1) $(0,1)$ 之间的概率，却有感知器那样的分类效果。
同时可以看到当

z $z$ 在0附近时，输出概率在0.5附件徘徊，而且比较敏感，但是当

z=θTx>>0 $z=\theta^Tx>>0$ 时它的输出很接近1，当

z=θTx<<0 $z=\theta^Tx<<0$ 时它的输出很接近0。所以如果我们能够让

z>>0 $z>>0$ 或者

z<<0 $z<<0$ ，我们就会更加确信这个样本被正确分类了。
换句话说，如果把

z=0 $z=0$ 这条直线当做决策边界，那么数据点

z $z$ 距离这条直线越远，就越不可能被分错。
SVM就是从几何的角度，在这方面下功夫的。

下面是在logistic回归模型下，因为SVM这个算法的特点而引起的符号改变：

y = h θ (x) = g (θ T x) = g (w T x + b) = h w, b (x) (3)

$y=h_\theta(x)=g(\theta^Tx)=g(w^Tx+b)=h_{w,b}(x)\tag{3}$
直观点的改变是：

θ T x = θ 0 + θ 1 x 1 + θ 2 x 2 + \dots + θ n x n = b + w 1 x 1 + w 2 x 2 + \dots + w n x n = w T x + b (4)

$\theta^Tx=\theta_0+\theta_1x_1+\theta_2x_2+\cdots+\theta_nx_n=b+w_1x_1+w_2x_2+\cdots+w_nx_n=w^Tx+b\tag{4}$
截距b就是截距

θ0 $\theta_0$ ，向量

w $w$ 就是除了

θ0 $\theta_0$ 外，剩下的向量

θ $\theta$ ，而且这里的向量

x $x$ 应该是差了一个

x0=1 $x_0=1$ （

xθ,θ∈Rn+1 $x_\theta,\theta \in R^{n+1}$ ，

xw,w∈Rn $x_w,w \in R^{n}$ ），但是不影响…它们表达的意思是一样的，只是换了些符号而已。
另外，这里的

g(z) $g(z)$ 不再是式（2）中的形式，而是：

g (z) = {1 - 1 i f (z \geq 0) i f (z < 0) (5)

$g(z)=\left\{\begin{array}\\1 &if(z\geq 0)\\-1&if(z< 0)\end{array}\right.\tag{5}$
恩…长得很像感知器。
式（3）与式（5）就是SVM模型了，参数是

θ $\theta$ 与

b $b$ ，当这两个参数确定了，我们就可以做出分类超平面，对数据进行分类。

对同一个模型，logistic模型用概率的方式求解，下面就要引入函数间隔与几何间隔来从几何的角度来解析SVM了。

1.2、函数间隔（Functional margins）与几何间隔（Geometric margins）

给定一个训练样本 $(x^{(i)},y^{(i)})$ ，我们将其 函数间隔定义为：

γ^(i) = y (i) (w T x (i) + b) (6)

$\hat{\gamma}^{(i)}=y^{(i)}(w^Tx^{(i)}+b)\tag{6}$
函数间隔的作用有两个。
一个是 确认样本点有没有被正确分类：
由式（3）与式（5）可以知道，

y(i) $y^{(i)}$ 的取值为{

1,−1 $1,-1$ }，那么在

w,b $w,b$ 确定了，并且样本被正确分类的情况下，

wTx+b $w^Tx+b$ 与

y(i) $y^{(i)}$ 是同号的，即

γ^(i)=∣∣(wTx+b)∣∣ $\hat{\gamma}^{(i)}=\left|(w^Tx+b)\right|$ ，所以当函数间隔

γ^(i)>0 $\hat{\gamma}^{(i)}>0$ ，即

γ^(i) $\hat{\gamma}^{(i)}$ 是正数的时候，我们就认为这个点被正确地分类了（错误分类时

γ^(i)<0 $\hat{\gamma}^{(i)}<0$ ）。
另一个是 衡量该样本点被正确分类的确信度：
在起源中由sigmoid函数

g(z) $g(z)$ 我们注意到，一个点离超平面越远，其输出就越接近1，同样地，

γ^(i) $\hat{\gamma}^{(i)}$ 越大，这个样本被分对的也确信度越大。

进一步地，相比只有一个训练样本的情况，如果给定一个训练集 $S=$ { $(x^{(i)},y^{(i)};i=1,2,\cdots,m)$ }，那么整个训练集合的函数间隔为：

γ^= min i = 1, 2, \dots, m γ^(i) (7)

$\hat{\gamma}=\min_{i=1,2,\cdots,m} \hat{\gamma}^{(i)}\tag{7}$

有了函数间隔我们就可以去选择超平面了，在判断数据点有没有被正确分类这一点上，函数间隔没有问题。当所有样本点的函数间隔都是正数的时候，它们就全都被正确分类了（在这里讨论的是数据集线性可分的情况，如图一所示）。
需要注意的是，此时的超平面不一定就是最优的，所以我们还要最大化其被分类正确的确信度，这时候就需要依赖到函数间隔的第二个作用了。

但是在使得确信度最大这一点上，函数间隔却存在着缺陷。我们希望在样本点全部被正确分类的前提下，它们被分对的确信度最大，即让 $\hat{\gamma}$ 尽可能地大（这与式（7）中选取最小（即确信度最小）的 $\hat{\gamma}^{(i)}$ 来作为整个训练集的函数间隔 $\hat{\gamma}$ 并不矛盾，还有点在确立最大下界的意思）。
可是我们发现，只要成比例地改变 $w$ 与 $b$ ，比如把它们变成 $2w$ 与 $2b$ ，超平面并没有发生改变，但是函数间隔 $\hat{\gamma}$ 却变成了原来的两倍，这意味着，我们可以成比例地增大 $w$ 与 $b$ ，使得函数间隔 $\hat{\gamma}$ 变得无限大。这显然没有意义，因为超平面的位置并没有发生改变。

这时候就轮到几何间隔出场了，它是增加了约束的函数间隔，使函数间隔变得唯一，用符号 $\gamma$ 表示。
直观上来看几何间隔是样本点到超平面的距离。
此时改变几何间隔就能够移动超平面，同时几何间隔仍然能反映样本被正确分类的确信度，所以对几何间隔的最大化，就是对超平面的最优化。

下面我们借助图三来寻找几何间隔：

图三
设点B是向量

x $x$ ，点B在超平面上，点A为样本点向量

x(i) $x^{(i)}$ 。
因为点A与点B在法向量

w $w$ 上的距离就是几何间隔

γ(i) $\gamma^{(i)}$ ，所以我们有：

x (i) - γ (i) w ∥ w ∥ = x (8)

$x^{(i)}-\gamma^{(i)}\frac{w}{\left \| w \right \|}=x\tag{8}$
因为

γ(i) $\gamma^{(i)}$ 只是一个距离常量，所以需要乘上法向量

w $w$ 的单位向量

w∥w∥ $\frac{w}{\left \| w \right \| }$ （

∥w∥ $\left \| w \right \|$ 是向量

w $w$ 的长度，

∥w∥=w21+w22+w23+⋯+w2n+−−−−−−−−−−−−−−−−−−−−−√ $\left \| w \right \|=\sqrt{w_1^2+w_2^2+w_3^2+\cdots+w_n^2+}$ ），才能在向量间直接做加减。
因为点B在超平面上，所以我们有：

w T x + b = w T (x (i) - γ (i) w ∥ w ∥) + b = 0 (9)

$w^Tx+b=w^T(x^{(i)}-\gamma^{(i)}\frac{w}{\left \| w \right \|})+b=0\tag{9}$
对式（9）进行求解即可得到几何间隔的形式化定义：

γ (i) = w T x ( i ) + b ∥ w ∥ = (w ∥ w ∥) T x (i) + b ∥ w ∥ (10)

$\gamma^{(i)}=\frac{w^Tx^{(i)}+b}{\left \| w \right \|}= (\frac{w}{\left \| w \right \|})^Tx^{(i)}+\frac{b}{\left \| w \right \|} \tag{10}$
这是样本点在正侧的情形，如果样本点在负的一侧，那就是：

γ (i) = - ((w ∥ w ∥) T x (i) + b ∥ w ∥) (11)

$\gamma^{(i)}= -((\frac{w}{\left \| w \right \|})^Tx^{(i)}+\frac{b}{\left \| w \right \|} )\tag{11}$
所以为使公式一般化，几何间隔如下表示：

γ (i) = y (i) ((w ∥ w ∥) T x (i) + b ∥ w ∥) (12)

$\gamma^{(i)}= y^{(i)}((\frac{w}{\left \| w \right \|})^Tx^{(i)}+\frac{b}{\left \| w \right \|} )\tag{12}$
几何间隔与函数间隔的关系是：

γ (i) = γ ^ ( i ) ∥ w ∥ (13)

$\gamma^{(i)}= \frac{\hat{\gamma}^{(i)}}{\left \| w \right \|}\tag{13}$
所以说几何间隔是增加了约束的函数间隔，是对函数间隔的完善，这时如果成比例地改变

w $w$ 与

b $b$ ，几何间隔是不会改变的。

类似地，相比只有一个训练样本的情况，如果给定一个训练集 $S=$ { $(x^{(i)},y^{(i)};i=1,2,\cdots,m)$ }，那么整个训练集合的几何间隔为：

γ = min i = 1, 2, \dots, m γ (i) (14)

$\gamma=\min_{i=1,2,\cdots,m}\gamma^{(i)}\tag{14}$

1.3、最优间隔分类器（The optimal margin classifier）

有了几何间隔，我们就可以确定最优超平面的位置，即最优间隔分类器了：

max γ, w, b γ s . t . y (i) ((w ∥ w ∥) T x (i) + b ∥ w ∥) \geq γ, i = 1, 2, \dots, m (15)

$\begin{align} &\max_{\gamma,w,b} \quad \gamma\\ &s.t. \quad y^{(i)}((\frac{w}{\left \| w \right \|})^Tx^{(i)}+\frac{b}{\left \| w \right \|} )\geq\gamma,\quad i=1,2,\cdots,m \tag{15} \end{align}$
把图一再贴上来一次，并且默认上方的叉叉为正实例，下方的圈圈为负实例：

为什么说满足了式（15）的超平面就是最优间隔分类器，即图中的实线？
首先，在 正确分类的情况下，我们要承认 几何间隔 $\gamma$ 是正数（如果

γ $\gamma$ 是负数，证明分类都不正确，那就没有讨论下去的必要了，更不用提什么最优），所以如果每个样本点都服从了式（15）中

y(i)((w∥w∥)Tx(i)+b∥w∥)≥γ $y^{(i)}((\frac{w}{\left \| w \right \|})^Tx^{(i)}+\frac{b}{\left \| w \right \|} )\geq\gamma$ 这个式子，那么我们就可以认为“所有样本点的几何间隔都大于一个正数”，即这些样本点都被正确分类了。这正是函数间隔的第一个作用。于是在这个前提下，我们发现超平面只能画在图一的两条虚线即支持向量之间，而且要跟虚线平行。

其次，我们来考虑最优的问题。虽说确定了超平面一定在两条虚线之间，但是那里面仍然有无数个超平面，如何确定最优？
综合几何间隔与函数间隔的第二个作用，我们有这样的结论：“几何间隔越大，样本被正确分类的确信度越大”，当式（15）中 $\max_{\gamma,w,b} \quad \gamma$ 这个式子满足的时候，我们发现超平面正好处于两条虚线的中线位置，它也是我们直观上能想象到的最好的位置了。为什么这么巧？
直观上来说，支持向量是最靠近超平面的存在，所以由式（14）可以知道，支持向量的几何间隔，就是整个样本集的几何间隔，因为其它的点离超平面更远，不在考虑范围之内了。
我们可以想象一下这条实线（超平面）沿着平行的方向上下移动，举个极端的例子，超平面移动到支持向量上，与某一条虚线重合了，这时候所有样本点也是分类正确的，但是此时的几何间隔 $\gamma =0$ ，它是不满足“几何间隔最大”这个要求的，然后我们慢慢将超平面从虚线向另一侧的虚线移动，每移动一分几何间隔 $\gamma$ 就增大一分，直到达到中线的位置，支持向量到超平面的距离相等， $\gamma$ 才达到最大，超平面达到最优（如果超平面继续向另一侧虚线移动， $\gamma$ 又会变小）。

解释了这么多是为了说明，满足了式（15）的参数 $w,b$ 可以确定最优超平面，所以它就是我们的目标函数了。那是不是就可以开始对式（15）进行求解了，求解得到了 $w,b$ ，SVM的工作就完成了。

嗯，是的，求解得到 $w,b$ ，SVM的工作就完成了。但是，工作还没有开始。因为这个样子的目标函数没法求解，或者直接求解难度太大，因为它不是一个凸函数，没法用常规的梯度下降或者牛顿法求解。目前的我也不知道如果不用讲义上给的方法，还有没有别的方法可以手动求解。所以，按着给出的方法接着往下走吧。

由函数间隔与几何间隔的关系 $\gamma^{(i)}= \frac{\hat{\gamma}^{(i)}}{\left \| w \right \|}$ ，我们可以对式（15）进行如下的改写：

max γ^, w, b γ ^ ∥ w ∥ s . t . y (i) (w T x (i) + b) \geq γ^, i = 1, 2, \dots, m (16)

$\begin{align} &\max_{\hat{\gamma},w,b} \quad \frac{\hat{\gamma}}{\left \| w \right \|}\\ &s.t. \quad y^{(i)}(w^Tx^{(i)}+b )\geq\hat{\gamma},\quad i=1,2,\cdots,m \tag{16} \end{align}$
因为函数间隔的改变不影响超平面的位置，所以为了进一步化简目标函数，我们给函数间隔一个约束

γ^=1 $\hat{\gamma}=1$ 使其变得唯一，此时

γ^∥w∥=1∥w∥ $\frac{\hat{\gamma}}{\left \| w \right \|}=\frac{1}{\left \| w \right \|}$ ，又因为最大化

1∥w∥ $\frac{1}{\left \| w \right \|}$ 与最小化

12∥w∥2 $\frac{1}{2}\left \| w \right \|^2$ 是一样的，所以有：

min γ, w, b 1 2 ∥ w ∥ 2 s u b j e c t t o y (i) (w T x (i) + b) \geq 1, i = 1, 2, \dots, m (17)

$\begin{align} &\min_{\gamma,w,b} \quad \frac{1}{2}\left \| w \right \|^2\\ &subject \ to \quad y^{(i)}(w^Tx^{(i)}+b )\geq1,\quad i=1,2,\cdots,m \tag{17} \end{align}$
这样，目标函数就变成式（17）的样子了，接下来就可以对这个函数进行求解了。

2、SVM的转换与优化

2.1、SVM转换——引入拉格朗日对偶与KKT条件

2.1.1、目标函数转化为原始问题（Primal problem）

现在，我们将目标函数式（17）改写一下：

令 f (w) 令 g (w i) = 1 2 ∥ w ∥ 2 = - y (i) (w T x (i) + b) + 1 \leq 0 (18)

$\begin{align} 令\quad f(w)&= \frac{1}{2}\left \| w \right \|^2\\ 令 \quad g(w_i)&= -y^{(i)}(w^Tx^{(i)}+b )+1\leq0 \tag{18} \end{align}$
然后引入 拉格朗日乘子（Lagrange multipliers） α