SVM学习笔记-对偶形式的SVM

最新推荐文章于 2024-01-23 11:56:48 发布

土肥宅娘口三三

最新推荐文章于 2024-01-23 11:56:48 发布

阅读量8.1k

点赞数 10

分类专栏：机器学习文章标签： SVM 机器学习对偶形式的SVM

本文链接：https://blog.csdn.net/robin_xu_shuai/article/details/76768916

版权

机器学习专栏收录该内容

31 篇文章 9 订阅

订阅专栏

SVM学习笔记第二篇

0 - 回顾

上一篇笔记讲述了一个模型：线性支撑向量机。其目的是要找一个比较“胖”的分割线或者叫分割超平面，因为这些比较“胖”的 $hyperplane$ 对于测量误差是比较鲁棒的。并且我们使用二次规划方法来解决这样的问题。
这篇将要讲述的是将这个模型转化为另一种形式，对偶形式，以使得该模型可以更容易的延伸到其他不同的各种各样的应用当中去。

1 - 非线性支撑向量机

上一节讲到我们可以使用二次规划解决线性支撑向量机。当我们想使用非线性的转化，只要将 $z = \Phi(x)$ 作为输入，在 $Z$ 空间中构造二次规划问题需要的输入就好了，这样就能通过二次规划的方法找到在 $Z$ 空间中最好的 $w$ 和 $b$ ，然后可以在 $Z$ 空间中得到一个线性的分类器，对应到原来的 $X$ 空间中，就是一个非线性的分类器。

$(SVM+feature\ \ transform=non$ - $linear SVM)$ 即 $SVM$ 加上非线性特征转化可以得到非线性的 $SVM$ 。

为什么要使用非线性的 $SVM$ 呢？

通过 $SVM$ 自身的 $largin$ - $margin$ 特性来降低算法的复杂度，
通过 $feature\ transform$ 来得到更加复杂的弯弯曲曲的曲线以使得 $E_{in}$ 更小。

非线性的 $SVM$ 形式如下：(只要将 $z = \Phi(x)$ 作为输入即可)

m i n w, b s . t . 1 2 w T w y n (w T z n    Φ (x) + b) \geq 1 (1) (2)

$\begin{align} min_{w, b} \quad & \frac12w^Tw \\ s.t. \quad & y_n(w^T\underbrace{z_n}_{\Phi(x)}+b) \ge 1 \end{align}$

1.1 - 非线性的硬间隔SVM算法（Non-linear Hard-Margin SVM）

构造二次规划中需要的参数 $(Q, p, A, c)$
$Q = [0 0 d ~ 0 T d ~ I d ~]; p = 0 d ~ + 1; a T n = y n [1 z T n]; c n = 1 (24)$ $\begin{equation} Q = \left [ \begin{array}{cc} 0 & 0_{\tilde{d}}^T \\ 0_{\tilde{d}} & I_{\tilde{d}} \end{array} \right ] ; \quad p = 0_{\tilde{d}+1}; \quad a_n^T = y_n \left [ \begin{array}{cc} 1 & z_n^T \\ \end{array} \right ]; \quad c_n = 1 \end{equation}$
$\quad \quad w, b \longleftarrow QP(Q,p,A, c)$
$\quad \quad return\ b \in R\ and\ w \in R^{\tilde{d}}\ with\quad g_{svm}(x) = sign(w^T\ \Phi(x)+b)$

这里有一个不得不关注的问题：
以上的新的 $QP$ 问题是在 $Z$ 空间中进行运算的， $Z$ 空间中的维度是 $\tilde{d}$ , 而在原来的 $X$ 空间中的维度是 $d, \tilde{d} \ggg d$ 。即，新的 $QP$ 问题的变量有 $\tilde{d}+1$ 个，约束有 $N$ 个，所以当 $Z$ 空间的维度很高的时候，这个 $QP$ 问题就很难求解。这也是我们这篇基本的出发点和想要解决的问题。
当我们想要使用非常复杂的特征转化甚至为无限维度的特征转化的时候， $\tilde{d}$ 就会很大或者是无穷大，显然现在是没有办法解决无限多个变数的最佳化问题的，所以我们想要找到一个特殊的机制可以帮助我们完成这个任务，解决特征转化之后在计算上对 $Z$ 空间中 $\tilde{d}$ 的依赖。

1.2 - 我们的目标：不依赖于 $\tilde{d}$ 的SVM

我们的方法是将原始的 $SVM$ 问题转化为一个新的对等的 $SVM$ 问题。原来的问题中，如上所述，总共有 $\tilde{d}+1$ 个变量， $N$ 个约束；新的问题依然是一个 $QP$ 问题，但是其中将有 $N$ 个变量， $N+1$ 个约束。也就是说只和资料量的大小 $N$ 有关，与特征的个数无关，那么就和转换之后的 $Z$ 空间的维度没有任何的关系。我们把这个新的和原来对等的问题称为是原来 $SVM$ 的对偶问题。我们要使用的方法是拉格朗日乘子。

1.3 - 工具: 拉格朗日乘子

简单的回忆一下 $regularization$ 的内容： $regularization$ 原来是要求解一个有条件的最优化问题，即我们想要 $E_{in}$ 最小，约束是 $w$ 的长度不能太长。但是这个有约束的最佳化问题我们不会解，所以在经过了一番推导之后发现这个约束条件可以塞到最小化的目标函数里面，这样就变成了求解一个最小化 $E_{aug}$ 的问题，这个问题是没有约束条件的(如下图)。在这个过程中我们使用到的工具就是 $lagrange\ multiplier$ ，简单说就是将每一个条件前面乘以一个系数加到目标函数中去。

$SVM$ 是一个带条件的最优化问题，我们通过引入 $lagrange\ multipliers$ 得到的问题就是 $SVM$ 的对偶问题，该问题的变量是引入的 $Lagrange\ multipliers$ 。因为有 $N$ 个条件，所有我们需要引入 $N$ 个 $lagrange\ multipliers$ $\alpha_{i}$ 。

为了推导对偶问题，我们首先想要做的是将原始的 $SVM$ 问题转化为一个无约束的问题。

$m i n w, b s . t . 1 2 w T w y n (w T z n + b) \geq 1 (41) (42)$ $\begin{align} \mathop{min}\limits_{w, b} \quad & \frac12w^Tw \\ s.t. \quad & y_n(w^T{z_n}+b) \ge 1 \end{align}$

定义一个函数，我们称之为拉格朗日函数，其中的 $\alpha$ 为拉格朗日乘子。

$L (b, w, α) = 1 2 w T w        o b j c e t f u n c t i o n + \sum n = 1 N α n (1 - y n (w T z n + b)                      c o n s t r a i n t)$ $L(b, w, \alpha) = \underbrace{\frac12w^Tw}_{objcet\ function} + \sum_{n=1}^N\alpha_n \underbrace{(1-y_n(w^Tz_n+b)}_{constraint})$

之所以要定义这个函数，是为了将 $SVM$ 转化为一个看起来好像无约束的问题，定义了以上的函数之后，考虑如下的这个无约束的最小化问题：

$m i n b, w (m a x a l l α n \geq 0 L (w, b, α))$ $\mathop{min}\limits_{b, w} \ (\mathop{max}\limits_{all\ \alpha_{n} \ge 0} \quad L(w, b, \alpha))$

这个式子要做的事情可以理解成是这样的：对于一组 $(w, b)$ ，我们来调 $\alpha$ 的取值，使得 $L(w, b, \alpha)$ 能取得最大值；对于第二组 $(w, b)$ ，我们再来调 $\alpha$ 的取值，使得 $L(w, b, \alpha)$ 能取得最大值； $\cdots$ ；对于另一组 $(w, b)$ ，我们再来调 $\alpha$ 的取值，使得 $L(w, b, \alpha)$ 能取得最大值 $\cdots$ 。这样每一组 $(w, b)$ 都能得到相应的一个 $L(w, b, \alpha)$ 的最大值，最后在这些最大值里面选择最小的。这个最小的值对应的那组 $(w, b)$ 就是我们原始问题想要的解。下面来解释为什么这样做是对的？

如上面说的，针对每一组 $(w, b)$ 调节 $\alpha$ 来使得 $L(w, b, \alpha)$ 最大，

如果这一组 $(w, b)$ 是“不好”的，即违反了 $N$ 个条件中的任何一个，不失一般性，我们假设这一组 $(w, b)$ 违反了第 $k$ 个条件，那么 $y_k(w^Tz_k+b) < 1$ 即 $1- y_k(w^Tz_k+b) >0$ 。此时我们想要做的事情是 $\mathop{max}\limits_{all\ \alpha_n\ \ge 0}(\frac12w^Tw + \sum_{n=1}^N\alpha_n (1-y_n(w^Tz_n+b)))$ ，那么我们只要令 $\alpha_k$ 取无穷大就可以使得 $L(w, b, \alpha)$ 最大（无穷大）。
如果这一组 $(w, b)$ 是“好”的，即它满足 $SVM$ 中所有的约束，那么在 $\mathop{max}\limits_{all\ \alpha_n\ \ge 0}(\frac12w^Tw + \sum_{n=1}^N\alpha_n (\bigcirc)))$ 的时候，因为 $\bigcirc$ 都是负的，我们要最大化这个式子，所以 $\alpha$ 最好的取值是都取 $0$ 。那么最大化的结果就是 $\frac12w^Tw$

本来我们对 $(w, b)$ 是没有设置任何的条件的，但是在做里面的最大化的时候不好的 $w, b$ （违反 $SVM$ 约束条件的 $w， b$ ）会得到无穷大，好的 $w, b$ （满足 $SVM$ 约束条件的 $w， b$ ）会得到 $\frac12w^Tw$ 。所以当我们再做外层的最小化的操作的时候，我们自然而然的就把不好的 $(w, b)$ 排除了。而要在好的 $(w, b)$ 中选择使得 $\frac12w^Tw$ 最小的。

这样我们就把原始 $SVM$ 问题转化为了一个无约束的问题。

2 - 拉格朗日对偶SVM

现在我们已经把 $SVM$ 问题转换为一个新的问题了。简单说，新的无约束的问题是先对拉格朗日函数做一个关于 $\alpha$ 的最大化问题，在做一个关于 $w, b$ 的最小化问题。
对于一个固定的 $\alpha'$ 我们可以得到

$m i n w, b (m a x a l l a n \geq 0 L (w, b, α)) \geq m i n w, b L (w, b, α')$ $\mathop{min}\limits_{w, b}(\mathop{max}\limits_{all\ a_n \ge 0} \ L(w, b, \alpha)) \ge \mathop{min}\limits_{w, b} \ L(w, b, \alpha')$

因为最大的值总是要比任意的一个值大 $(max \ge any)$

又因为任意的 $\alpha'$ 上式都是成立的，那么当然其中最大的那个对于上面的式子来说也是成立的。

$m i n w, b (m a x a l l a n \geq 0 L (w, b, α)) \geq m a x a l l α n \geq 0 (m i n w, b L (w, b, α'))                            L a g r a n g e d u a l p r o b l e m$ $\mathop {min} \limits_{w, b} (\mathop {max} \limits_{all\ a_n \ge 0} \ L(w, b, \alpha)) \ge \underbrace{\mathop {max} \limits_{all\ \alpha_n \ge 0}(\mathop {min} \limits_{w, b} \ L(w, b, \alpha'))}_{Lagrange \ dual \ problem}$

这样我们就得到了原始问题的一个对偶问题( $max\ minL(w, b, \alpha)$ )，如果我们能解决对偶问题，那么我们就得到了原始问题的一个下限。如果不在意数学的推导，其实就是将最小化和最大化的顺序互换了一下。

2.1 - 二次规划问题的强对偶性

$m i n w, b (m a x a l l a n \geq 0 L (w, b, α))                          e q u i v . t o o r i g i n a l S V M \geq m a x a l l α n \geq 0 (m i n w, b L (w, b, α'))                            L a g r a n g e d u a l p r o b l e m (1)$ $\underbrace{\mathop {min} \limits_{w, b} (\mathop {max} \limits_{all\ a_n \ge 0} \ L(w, b, \alpha))}_{equiv. \ to\ original \ SVM} \ge \underbrace{\mathop {max} \limits_{all\ \alpha_n \ge 0}(\mathop {min} \limits_{w, b} \ L(w, b, \alpha'))}_{Lagrange \ dual \ problem} \tag1$

上述的这个 $\ge$ 的关系在最小化的文献里面被称为 $weak\ duality$ ，意思是这两个问题有关系，但是关系有点弱。如果有一个更强的关系，即左边的解和右边的解是相等的。那么我们就可以通过求解右边的问题来求解 $SVM$ ，因为现在 $SVM$ 的求解已经转换为求解左边的问题了。为什么要解右边的问题呢？因为右边的问题相比于左边的来说更好解。根据我们上面的分析，我们对 $w和b$ 是没有约束的，而右边的问题是要先解决这个没有约束的问题（无约束的问题总是比较好解的），所以比较简单。
那么什么条件下两个问题的解是相同的呢？对于二次规划问题来说，如果：

问题是凸的， $SVM$ 是凸的
原来的问题是有解的，也就是能在 $Z$ 空间中正确的划分，这一点也能满足

条件是线性的

上述的不等式关系可以变为等式关系，或者称为强对偶关系。那么就可以通过求解右边的问题，即对偶问题，来求解和SVM问题等价的原始问题。此时存在一组 $(w, b, \alpha)$ ，对于两边来说都是最佳的解。

2.2 - 求拉格朗日对偶形式

经过上面的推导，我们现在就可以通过求解如下的对偶问题来求解原始的 $SVM$ 问题。

$m a x a l l α n \geq 0 (m i n w, b 1 2 w T w + \sum n = 1 N α n (1 - y n (w T z n + b))                                        L (w, b, α))$ $\mathop{max} \limits_{all \ \alpha_n \ge 0}\bigg(\mathop {min} \limits_{w, b} \ \underbrace{\frac12w^Tw + \sum_{n=1}^{N} \alpha_n\big(1 - y_n(w^Tz_n + b)\big)}_{L(w, b, \alpha)}\bigg)$

先看里面的 $min$ 部分，现在里面的这部分是无约束的最小化问题，要想得到最优解，即最优的那组 $(w, b, \alpha)$ ，那么需要满足的一个条件是：

$\partial L ( w , b , α ) \partial b = 0 ⟶ - \sum n = 1 N α n y n = 0$ $\frac{\partial L(w, b, \alpha)}{\partial b}=0 \longrightarrow \ -\sum_{n=1}^{N}\alpha_ny_n = 0$

既然这是最佳解需要满足的很多条件中的一个，那么我们再在原来的问题上多加一个这样的条件对原来的问题的解是毫无影响的。因为这个条件涉及到 $\alpha$ ，所以加在最大化的下面，那么上面的式子变为：

$m a x a l l α n \geq 0 ， \sum y n α n = 0 (m i n w, b 1 2 w T w + \sum n = 1 N α n (1 - y n w T z n) - \sum n = 1 N α n y n b)))$ $\mathop {max} \limits_{all \ \alpha_n \ge 0， \sum y_n\alpha_n=0} \ (\mathop {min} \limits_{w, b} \ \frac12w^Tw + \sum_{n=1}^{N} \alpha_n(1 - y_nw^Tz_n) -\sum_{n=1}^{N}\alpha_ny_n\ b)))$

$\sum y_n\alpha_n=0$ 所以有 $\sum y_n\alpha_n b=0$ ，所以有：

$m a x a l l α n \geq 0 ， \sum y n α n = 0 (m i n w 1 2 w T w + \sum n = 1 N α n (1 - y n w T z n))$ $\mathop {max} \limits_{all \ \alpha_n \ge 0， \sum y_n\alpha_n=0} \ (\mathop {min} \limits_{w} \ \frac12w^Tw + \sum_{n=1}^{N} \alpha_n(1 - y_nw^Tz_n) )$

经过这样的处理，式子中的 $b$ 消失了.

上面是通过对 $b$ 求导数来进行化简，同样的我们对 $w_i$ 求偏导来继续化简上面的式子：

还是针对里面的那个无约束的最小化问题，最优的 $(w, b, \alpha)$ 还应该满足：

$\partial L ( w , b , α ) \partial w i = w i - \sum n = 1 N α n y n z n, i = 0$ $\frac{\partial L(w, b, \alpha)}{\partial w_i} = w_i - \sum_{n=1}^{N} \ \alpha_ny_nz_{n, i} = 0$
$⟶ w = \sum n = 1 N α n y n z n$ $\longrightarrow w= \sum_{n=1}^{N} \ \alpha_ny_nz_{n}$

依据和上面一样的思想，将这个最优解需要满足的另一个条件添加进去，那么上面的式子变为：

$m a x a l l α n \geq 0, \sum y n α n = 0, w = \sum α n y n z n (m i n w 1 2 w T w + \sum n = 1 N α n - w T w)$ $\mathop {max}\limits_{all\ \alpha_n \ge 0, \sum y_n\alpha_n = 0, w = \sum \alpha_n y_n z_n}(\mathop {min} \limits_{w} \frac12w^Tw + \sum_{n=1}^{N}\alpha_n-w^Tw)$

$⟶ m a x a l l α n \geq 0, \sum y n α n = 0, w = \sum α n y n z n (m i n w - 1 2 | | \sum n = 1 N α n y n z n | | 2 + \sum n = 1 N α n)$ $\longrightarrow \mathop {max}\limits_{all\ \alpha_n \ge 0, \sum y_n\alpha_n = 0, w = \sum \alpha_n y_n z_n} (\mathop {min} \limits_{w} -\frac12||\sum_{n=1}^{N}\alpha_ny_nz_n||^2 + \sum_{n=1}^{N}\alpha_n)$

$⟶ m a x a l l α n \geq 0, \sum y n α n = 0, w = \sum α n y n z n - 1 2 | | \sum n = 1 N α n y n z n | | 2 + \sum n = 1 N α n$ $\longrightarrow \mathop {max}\limits_{all\ \alpha_n \ge 0, \sum y_n\alpha_n = 0, w = \sum \alpha_n y_n z_n} -\frac12||\sum_{n=1}^{N}\alpha_ny_nz_n||^2 + \sum_{n=1}^{N}\alpha_n$

因为式子里面已经没有 $w$ 了，所以就可以把 $\mathop {min} \limits_{w}$ 去掉了。

现在我们就把原来的问题化简为了一个只有变量 $\alpha$ 的最大化问题。这个 $\alpha$ 要满足三个条件：

$all\ \alpha_n \ge 0$ ： $\alpha$ 自身的限制。
$\sum y_n\alpha_n = 0$ ：对 $b$ 最优化得到的条件。

$w = \sum \alpha_ny_nz_n$ ：对 $w$ 最优化得到的条件。

这样我们就得到了拉格朗日对偶问题的简化版本

$\underset{a l l α_{n} \geq 0, \sum y_{n} α_{n} = 0, w = \sum α_{n} y_{n} z_{n}}{m a x} - \frac{1}{2} | | \sum_{n = 1}^{N} α_{n} y_{n} z_{n} | |^{2} + \sum_{n = 1}^{N} α_{n}$ $\mathop {max}\limits_{all\ \alpha_n \ge 0, \sum y_n\alpha_n = 0, w = \sum \alpha_n y_n z_n} -\frac12||\sum_{n=1}^{N}\alpha_ny_nz_n||^2 + \sum_{n=1}^{N}\alpha_n$

当求出最佳的 $\alpha$ 之后，最佳的 $\alpha$ 和最佳的 $w, b$ 会满足一些关系，这些关系我们称之为KKT condition，即：如果 $(w, b,\alpha)$ 是原问题和对偶问题的最佳解，那么它们会满足一些条件如下：

满足原始问题的条件： $y_n(w^Tz_n+b) \ge 1$
满足对偶问题的条件： $\alpha_n \ge 0$
$\sum y_n\alpha_n = 0$ ； $w = \sum \alpha_n y_n z_n$
$\alpha_n (1 -y_n(w^Tz_n+b)) = 0$ ，两者至少要有一个为0，保证了解的稀疏性。这也正是 $SVM$ 的优势。

以上四个条件是 $(w, b,\alpha)$ 为原问题和对偶问题的最佳解的充分必要条件。
有必要详细说下第4个条件，从这里可以看出只有 $1 = y_n(w^Tz_n+b)$ 的样本点的 $\alpha_n$ 才是非零的，当 $1 \ne y_n(w^Tz_n+b)$ 的时候，对应的 $\alpha_n$ 都是0，所以说这样一来 $\alpha$ 就变得很稀疏。

所以当我们求出了对偶问题的最优解之后，将利用这些条件从 $\alpha$ 中计算我们想要的 $w, b$ 。

3 - SVM的对偶形式的求解

通过上一节的分析得到了 $SVM$ 对偶形式的简化版如下：

$m a x a l l α n \geq 0, \sum y n α n = 0, w = \sum α n y n z n - 1 2 | | \sum n = 1 N α n y n z n | | 2 + \sum n = 1 N α n$ $\mathop {max} \limits_{all\ \alpha_n \ge 0, \sum y_n\alpha_n = 0, w = \sum \alpha_n y_n z_n} -\frac12||\sum_{n=1}^{N}\alpha_ny_nz_n||^2 + \sum_{n=1}^{N}\alpha_n$

将以上的形式稍作修改： $max$ 改为 $min$ ，可以得到：
standard hard-margin SVM dual

$m i n α s u b j e c t t o 1 2 \sum n = 1 N \sum m = 1 N α n α m y n y m z T n z m - \sum n = 1 N α n \sum y n α n = 0 a l l α n \geq 0 n = 1, 2, \dots N . (47) (48) (49) (50)$ $\begin{align} \mathop {min} \limits_{\alpha} \quad & \frac12\sum_{n=1}^{N}\sum_{m=1}^{N} \alpha_n \alpha_m y_n y_m z_n^T z_m - \sum_{n=1}^{N}\alpha_n \\ subject \ to \quad & \sum y_n\alpha_n = 0 \\ & all\ \alpha_n \ge 0 \\ & n = 1, 2, \cdots N. \end{align}$

可以看到这个问题完全是一个正如我们之前想要得到的，新的最佳化问题有 $N$ 个变量 $\alpha_n$ ， $N+1$ 个约束条件（每一个 $\alpha$ 一个，所有的一个），这是一个 $(convex)QP$ 问题。

3.1 - 使用二次规划求解对偶的SVM

使用二次规划的方法来解决对偶 $SVM$ 问题

$o p t i m a l α = ? m i n α s u b j e c t t o 1 2 \sum n = 1 N \sum m = 1 N α n α m y n y m z T n z T m - \sum n = 1 N α n \sum y n α n = 0 a l l α n \geq 0 n = 1, 2, \dots N . (10) (11) (12) (13) (14)$ $\begin{align} optimal\ \ \alpha = \ ? \\ \mathop {min} \limits_{\alpha} \quad & \frac12\sum_{n=1}^{N}\sum_{m=1}^{N} \alpha_n \alpha_m y_n y_m z_n^T z_m^T - \sum_{n=1}^{N}\alpha_n \\ subject \ to \quad & \sum y_n\alpha_n = 0 \\ & all\ \alpha_n \ge 0 \\ & n = 1, 2, \cdots N. \end{align}$

同样的调用二次规划的包来进行计算，我们唯一需要做的就是喂给包相应的参数，二次项系数： $Q$ ；一次项系数： $p$ ；条件中的系数： $A$ ；条件中的常数： $c$ 。

标准的二次规划问题如下：

$o p t i m a l α ⟵ m i n α s u b j e c t t o Q P (Q, p, A, c) 1 2 α T Q α + p T α a T i α \geq c i n = 1, 2, \dots N .$ $\begin{align*} optimal\ \alpha \longleftarrow & QP(Q, p, A, c) \\ \mathop {min} \limits_{\alpha} \quad & \frac12 \alpha^{T}Q\alpha + p^T \alpha \\ subject \ to \quad & a_i^T\alpha \ge c_i \\ & n = 1, 2, \cdots N. \end{align*}$

参数的计算方法：

$q_{n,m} = y_n y_m z_n^T z_m^T$
$p = -1_N$ ： $N$ 维的向量，元素都是 $1$
$a_{\ge} = y, a_{\le} = -y$ ：等于可以拆成 $\ge$ 和 $\le$
$c_{\ge} =0, c_{\le} = 0$
$a_n^T = n$ - $th\ unit\ direction$ ？
$c_n = 0$

需要注意的是：
$Q$ 很大，并且 $Q$ 中的大部分的数值不是 $0$ ，这是因为 $q_{n,m} = y_n y_m z_n^T z_m^T$ ，不可能存在大量垂直的向量 $z_n, z_m$ ，所以我们可以说 $Q$ 是 $dense$ 的，这就需要很大的存储量和计算量。当资料量很大的时候，这就是一个很严重的问题。原始的 $SVM$ 问题中的 $Q$ 矩阵中有大量的 $0$ 元。

3.2 - 求解最佳的 $w, b$

当通过上面的求解终于求得 $\alpha$ 之后，如何使用我们已经求解到的 $\alpha$ 来获得我们想要的 $w, b$ 呢？
根据KKT可得 $w$ 的计算方法为：

$w = \sum α_{n} y_{n} x_{n}$ $w = \sum \alpha_n y_n x_n$

这样最佳的 $w$ 就求解出来了；至于 $b$ ，如果 $(w, b , \alpha)$ 是原问题和对偶问题的最佳解，那么满足 $\alpha_n (1 -y_n(w^Tz_n+b)) = 0$ ，即两者至少要有一个为 $0$ 。
所以我们选择一个 $\alpha_n \ge 0 \longrightarrow 1 - y_n(w^Tz_n + b)= 0 \longrightarrow y_n = w^Tz_n + b \longrightarrow b = y_n - w^Tz_n\quad (y_n^2 = 1)$

所以：

$w = \sum α n y n x n, b = y n - w T z n$ $w = \sum \alpha_n y_n x_n, \quad b = y_n - w^Tz_n$

这里有一个很有趣的特性：当 $\alpha_n \ge 0$ 那么我们可得： $1 = y_n(w^Tz_n + b)$ ，这说明了什么呢？该 $\alpha_n$ 对应的点 $(x_n, y_n)$ 在边界上，也就是说这些点就是支撑向量 $support\ vector$ 。

4 - 对偶SVM的理解

4.1 - 支撑向量

通过上一小节我们看到当我们求解完对偶之后，也就是求出 $\alpha$ 之后，和我们一开始提到的支撑向量就建立了联系：在前面我们说在边界上的点为支撑向量，上一小节我们得到 $\alpha_n >0$ 对应的点在边界上。
我们把对偶问题的解中 $\alpha_n > 0$ 的点 $(x_n, y_n)$ 称为支撑向量SV。需要注意的是并不一定所有的位于边界上的点都是支撑向量。（位于边界上的点可以称为Support Vector Candidates）。

正如我们从感性上的认识那样，分割超平面应该要只和离它最近的那些点有关，分割超平面是由 $w, b$ 确定的，我们从数学上的计算也验证了这一点，即 $w, b$ 的计算只需要依靠非 $0$ 的 $\alpha$ 即可, 也就是说这个平面只需要 $SV$ 来决定。

$w = \sum n = 1 N α n y n x n = \sum S V α n y n x n$ $w = \sum_{n=1}^{N} \alpha_n y_n x_n = \sum_{SV}\alpha_n y_n x_n$
$b = y n - w T z n$ $b = y_n - w^Tz_n$

对偶的 $SVM$ 问题可以看成是一个机制，我们努力去找到 $SV$ ，用 $SV$ 来算出边界在哪里，其他的点都是不重要的。

4.2 - SVM和PLA的对比

$SVM$

$w S V M = \sum n = 1 N α n (y n x n)$ $w_{SVM} = \sum_{n=1}^{N}\alpha_n(y_nx_n)$

当我们已经通过对偶问题求出 $\alpha_n$ 之后，仅仅通过对 $y_n, x_n(z_n)$ 做如上式的线性组合就可以得到我们想要的分割超平面。
$PLA$

$w P L A = \sum n = 1 N β n (y n z n)$ $w_{PLA} = \sum_{n=1}^{N}\beta_n(y_nz_n)$

其中N为犯错的次数， $(z_n, y_n)$ 为犯错的点。

综上我们可以说：
$SVM$ 和 $PLA$ 最终的 $w$ 可以被我们的资料的 $y_nx_n$ 线性组合表示出来。我们称这样的 $w$ 为 $represented\ by\ data$ ，不过 $SVM$ 很特别，因为他只是需要 $SV$ 来表示。 $PLA$ 是用犯错的点来表现出来。所以每种这是 $SVM$ 和 $PLA$ 的关注的点不一样， $SVM$ 关注的是离分隔超平面最近的点， $PLA$ 关注的是犯错的点。

4.3 - 两种形式的硬间隔支撑向量机

原始问题：Primal Hard-Margin SVM
$m i n w, b s . t . 1 2 w T w y n (w T z n    Φ (x) + b) \geq 1 (57) (58)$ $\begin{align} min_{w, b} \quad & \frac12w^Tw \\ s.t. \quad & y_n(w^T\underbrace{z_n}_{\Phi(x)}+b) \ge 1 \end{align}$

$\tilde{d}$ +1个变量， $N$ 个约束。当 $\tilde{d}$ +1比较小的时候，适合用这种形式求解。

对偶问题：Dual Hard-Margin SVM
$m i n α s u b j e c t t o 1 2 \sum n = 1 N \sum m = 1 N α n α m y n y m z T n z T m - \sum n = 1 N α n \sum y n α n = 0 a l l α n \geq 0 n = 1, 2, \dots N . (59) (60) (61) (62)$ $\begin{align} \mathop {min} \limits_{\alpha} \quad & \frac12\sum_{n=1}^{N}\sum_{m=1}^{N} \alpha_n \alpha_m y_n y_m z_n^T z_m^T - \sum_{n=1}^{N}\alpha_n \\ subject \ to \quad & \sum y_n\alpha_n = 0 \\ & all\ \alpha_n \ge 0 \\ & n = 1, 2, \cdots N. \end{align}$

不管是上面的哪一种解法，最终我们都能得到 $SVM$ 的分类器
$g s v m = s i g n (w T x + b)$ $g_{svm} = sign(w_Tx + b)$

$N$ 个变量， $N+1$ 个约束条件，当资料量不是很大的时候，适合使用这个形式来求解。

4.4 - 讨论

我们之前的目标是要使得我们的 $SVM$ 不依赖于 $\tilde{d}$ 。在转化为 $SVM$ 的对偶形式之后，我们是否达到了这个目标呢？表面上看了是的，因为变量的个数是 $N$ ，但是其实 $\tilde{d}$ 的问题仍然存在在计算 $Q$ 的过程中， $q_{n, m} = y_ny_mz_n^Tz_m$ ，这里要计算长度为 $\tilde{d}$ 的两个向量 $z$ 的内积。所以这里并没有真正的避开这个很大的 $\tilde{d}$ ，只有我们做到了真的不用在计算 $Z$ 空间中的两个长度为 $\tilde{d}$ 的向量的內积的时候，我们可以说我们是避开了 $\tilde{d}$ ，完成了我们最初想要做的事情。

怎么避开这个长度为 $\tilde{d}$ 的向量的內积计算，而又能达到计算的目的是我们下一阶段要讨论的问题。所以在这一篇的一开始我们说了，对偶的 $SVM$ 是另一种形式的 $SVM$ ，是为了更好的将 $SVM$ 应用到不同的场合中。接下来我们会看到的时候，正是由于这个对偶的形式，使得我们可以使用一个非常高级的东西– $kernel$ 。

5 - 总结

我们想要使用复杂的特征转换加上 $SVM$ 来解决非线性的问题，而使用复杂的特征转化之后，出现了非常大的维度 $\tilde{d}$ 。我们引入对偶问题就是为了解决在使用 $non$ - $linear\ SVM$ 的时候对于 $\tilde{d}$ 的依赖问题。我们使用 $lagrange$ 函数，引入 $lagrange$ 乘子经过推到得出了原来问题的对偶问题，通过求解对偶问题的解，得到了支撑向量。从而得到了 $hyperplane$ 。但是在这种形式下，仍然有一个步骤的计算和 $\tilde{d}$ 有关（在计算 $Q$ 矩阵的元素的时候）。之后我们会分析如何移除对于 $\tilde{d}$ 的依赖。

确定要放弃本次机会？
福利倒计时
: :

立减 ¥
普通VIP年卡可用
立即使用

土肥宅娘口三三

关注关注

10
点赞

踩

21

收藏

觉得还不错? 一键收藏

1
评论

复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

SVM-支持向量机学习（2）：线性可分SVM的对偶型

鸟恋旧林的博客

08-31 1291

1. 从原始问题到对偶问题上节整整讨论了两遍（周、李老师），就是为了引出SVM是怎么来的？要解决的问题是什么？如何数学化表达？得到下面的数学问题：这就是SVM的基本型。该问题也称为原始问题。对该问题应用拉格朗日乘子法，通过将原始问题转化为求解对偶问题（dual problem）来得到最优解。即可得到线性可分SVM的对偶问题。为何要引入对偶问题？其优点在于：对偶问题更易求解：只需要求解乘子 α\al

python中的split函数的用法

最新发布

weixin_42415128的博客

09-24 519

split() 通过指定分隔符对字符串进行切片，如果参数 num 有指定值，则分隔 num+1 个子字符串。字符串中总共有15个空格，如果指定分隔次数大于15，则Python也不会报错，还是以分隔符的总数进行分隔。字符串中总共有15个空格，如果指定分隔次数大于15，则Python也不会报错，还是以分隔符的总数进行分隔。，第二个参数为分隔次数，如果不指定，则根据字符串中有多少个分隔符，就分隔多少次。，第二个参数为分隔次数，如果不指定，则根据字符串中有多少个分隔符，就分隔多少次。规定要执行的拆分数。

1 条评论您还未登录，请先登录后发表或查看评论

机器学习技法笔记2：SVM的对偶形式

wang_buaa的博客

09-05 909

2 SVM的对偶形式 1、上次学习过上一节课我们说过，使用SVM得到large-margin，减少了有效的VC Dimension，限制了模型复杂度；另一方面，使用特征转换，目的是让模型更复杂，减小Ein。所以说，非线性SVM是把这两者目的结合起来，平衡这两者的关系。那么，特征转换下，求解QP问题在z域中的维度设为d~+1，如果模型越复杂，则d~+1越大，相应求解这个QP问题也变得...

机器学习——SVM(2 对偶形式SVM)

daocaoren_的博客

07-24 832

为什么有对偶形式的SVM？当引入了特征转换之后，原有的SVM问题具有d~+1\tilde d + 1d~+1个变量，N个约束条件，但这里的d~+1\tilde d + 1d~+1是非常大的，需要优化非常多的参数变量，这造成了计算上的复杂性，那么这里的对偶形式的SVM就是为了移除对d~\tilde dd~的依赖。实际上，SVM的对偶形式并没有真正的移除对d~\tilde dd~的依赖(后面的Ke...

对偶SVM

qq_36695866的博客

12-09 348

由于SVM是解决线性可分的数据集，对于非线性可分的数据集，就需要进行非线性变换将非线性可分的数据集变成线性可分的数据集。一个常用的方法是使用kernel trick中的多项式核函数。但是直接对数据集做升维处理的时候一个很大的问题就是维数增加的很快。如何将这么庞大的维数变为较小的样本数来做处理是一个比较重要的问题。对偶SVM就是用来解决这个问题的。它将非常高的维度模型转换为一个与样本量有关的模型。

机器学习技法------对偶SVM

一只小包子的博客

12-04 581

文章目录SVM对偶问题 SVM对偶问题原始SVM问题如下最小化一个具有n个条件限制的公式其中zn是xn的非线性转化定义拉格朗日函数证明拉格朗日函数和原来具有限制的最小化问题是等值的此时SVM转化为当给定一个b和w 求解 L(b,w,α)的最大值之后在所有给定的b，w中选择一组使得所有的L(b,w,α)中最小的一个为了证明写成一个没有限制的SVM的形式也是和有限制的形式是...

从SVM中的对偶问题讲起

June

05-16 1155

在学习SVM时，讲到后面的求解过程时提到了对偶问题，那么什么是对偶问题呢，我们以二维空间为例进行简要的说明。我们知道，对于线性可分的支持向量机来说，其求解目标就是：也就是在正确分类的条件下（在这里假设了SVM是在做二分类，label是+1和-1，这也就是s.t.语句）取最小时，和b的值。其实这个就是带有不等式约束的优化问题。既然有带不等式约束的优化问题，那么一定也有带等式约束的优化问题和没有约束条件的优化问题。无约束条件下的优化问题【零梯度条件】举例来讲，这就是高中数学中简单的求..

SVM学习笔记+伪码.pdf

01-11

总结来说，SVM的学习笔记中包含了SVM的核心概念、优化算法、核函数的原理以及实际编程时需要注意的问题。掌握这些知识点对于深入理解和支持向量机的学习至关重要。在实际应用中，通过仔细调整SVM的参数并选择合适的...

SVM的原问题和对偶问题模型

热门推荐

为之则易，不为则难

11-29 1万+

这两天，我翻开沉压已久的学习笔记，看到了当初总结的SVM学习心得，为了避免不小心弄丢了，就在这里重新记录一下吧，希望对初学机器学习理论并热爱公式推导的朋友有所帮助。SVM作为一种经典的机器学习算法，在处理“小样本”问题时效果非常显著。本文主要分成三大部分，第一部分介绍一些基本知识，这些知识在SVM的公式推导过程中会用到，所以最先介绍。第二部分针对数据集线性可分的情况，推导SVM的原问题和对偶问题表达

python one class svm_Python机器学习笔记：One Class SVM

weixin_39575775的博客

12-18 1444

前言最近老板有一个需求，做单样本检测，也就是说只有一个类别的数据集与标签，因为在工厂设备中，控制系统的任务是判断是是否有意外情况出现，例如产品质量过低，机器产生奇怪的震动或者机器零件脱落等。相对来说容易得到正常场景下的训练数据，但故障系统状态的收集示例数据可能相当昂贵，或者根本不可能。如果可以模拟一个错误的系统状态，问题就好解决多了，但无法保证所有的错误状态都被模拟到，所以只能寻找单样本检测相关的...

李航《统计学习方法》笔记 --从原理到实现：基于R.pdf

03-31

感知机学习算法包括原始形式和对偶形式，且涉及到Novikoff定理，该定理证明了感知机算法的收敛性。优化算法中的SMO算法是支持向量机中用于优化问题的算法。 4. K近邻法：这是一类基于实例的非参数学习方法，用于...

SVM之拉格朗日乘子法对偶的推导

11-14

这是手工推导的SVM的推导过程，其中对拉格朗日乘子的对偶问题做了详细的推导

机器学习：SVM算法的对偶形式

weixin_40759186的博客

01-02 1795

文章目录楔子广义拉格朗日函数原问题和对偶问题楔子广义拉格朗日函数问题：转化为无约束的拉格朗日形式：原问题和对偶问题 primal problem opt (原始问题最优化（极小值）): dual problem opt (对偶问题最优化（极大值）): ...

最全面的SVM介绍（从拉格朗日对偶到SMO算法）

chenjunheaixuexi的博客

05-30 952

SVM主要用来处理二分类问题，其也可用以用来解决多分类问题与回归问题，只不过不常用。其目标是找到一个最优的分隔平面，来使得不同类别之间的距离最大化。核心思想是将问题转化成凸二次规划求解的问题。一、拉格朗日对偶变换想要搞清楚SVM问题是如何进行转化的，首先就要搞清楚什么是拉格朗日对偶变换，我们这里简要的叙述一下。其核心思想是将求解最优问题转化成为相对容易求解的问题。原始问题假设我们研究的优化问题如下： Minimizef0(x)Minimizef_0(x)Minimizef0(x

SVM支持向量机系列理论（二）线性可分SVM模型的对偶问题

promisejia

07-29 1908

2.3 对偶问题 2.3.1 原始问题的转换 a. 转换形式 SVM算法的经典问题是一个凸二次规划模型，求解这个问题比较复杂。 min&amp;amp;amp;amp;nbsp;w,b&amp;amp;amp;amp;nbsp;&amp;amp;amp;amp;nbsp;12||w||2min&amp;amp;amp;amp;nbsp;w,b&amp;amp;amp;amp;nbsp;&amp

机器学习——支持向量机基本型（SVM）及对偶问题推导

2301_82047153的博客

01-23 2515

1.点到直线的距离公式：设直线过点，方向向量为，由图1看出，点到直线的距离是以为邻边的平行四边形的底边上的高，因此有。在直角坐标系中点到平面的距离为:2.支持向量：假设超平面能将训练样本正确分类，即对于，若，则有；若，则有。令距离超平面最近的几个训练样本使得上式成立，我们称之为支持向量。3.线性规划标准型：对于约束矩阵，线性规划的规范形式为：4.拉格朗日乘数法：对于前面定义中所设的一般目标函数和约束条件组, 应引入辅助函数称此函数为拉格朗日函数, 其中。

这次一定要弄懂-SVM-3-Hard Margin SVM的对偶问题的求解（SMO算法）

weixin_44264662的博客

07-29 1171

文章目录3-1 KKT条件3-1-1 从拉格朗日乘数法的求解过程说起3-1-2 推广出KKT条件3-1-3 KKT条件用于原问题3-2 SMO算法3-3 总结并用python实现Hard Margin SVM 前面我们针对Hard Margin SVM推导了他的原问题： min⁡ω∣∣ω∣∣22\min \limits_{\bold{\omega}}\frac{||\omega||^2}{2}ωm...

这次一定要弄懂-SVM-2-Hard Margin SVM的原问题转换为拉格朗日对偶问题

weixin_44264662的博客

07-28 479

文章目录2-1 回顾Hard Margin SVM的原问题2-2 从原问题到拉格朗日对偶问题2-2-1 拉格朗日乘数法 -> 广义的拉格朗日乘子函数 ->拉格朗日对偶问题2-2-1-1 如何使用拉格朗日乘数法2-2-1-2 构造广义的拉格朗日乘子函数2-2-1-3 拉格朗日对偶问题2-2-1-4 对比原问题与拉格朗日对偶问题2-2-2 为什么要转化为拉格朗日对偶问题来求解2-2-2-1...

svm系列之核函数

丁磊_ml的博客

08-13 2205

kernel svm 其实阻碍以上两种svm进行的原因就是因为在处理非线性的情况下我们要把x通过映射函数xPhi x映射到z域里由于是处理非线性所以是将低维度映射到高位可是映射后变量的特征会飞快的增加有的时候可能达到无穷有点极端但是通过核函数连无穷的变量也能够解决由于特征非常多那么ynwTx1y_nwT Phi x1 线性svmzTzzTz对偶的svm二者的计算量就会很大很大很大常见的kernel

支持向量机(SVM)原理与算法解析

8. 习题：比较感知机与线性可分SVM的对偶形式，深入理解两种方法的区别。总结，SVM是一种强大的机器学习工具，其核心思想在于最大化间隔和使用核函数处理非线性问题，通过SMO等优化算法高效求解。它在许多领域，如...