SVM学习笔记-线性支撑向量机

最新推荐文章于 2024-10-08 13:47:01 发布

土肥宅娘口三三

最新推荐文章于 2024-10-08 13:47:01 发布

阅读量7.7k

点赞数 10

分类专栏：机器学习文章标签： SVM 机器学习线性SVM

本文链接：https://blog.csdn.net/robin_xu_shuai/article/details/76652311

版权

机器学习专栏收录该内容

31 篇文章 9 订阅

订阅专栏

0 - 写在前面

本系列为学习林轩田老师讲解的SVM的笔记整理，共四篇，此为第一篇：

如有理解错误，还望不吝指教！

1 - 最大间隔超平面

1.1 - 线性分类器回顾

如下图中有两个类别 $\times$ 和 $\bigcirc$ ，当数据是线性可分的时候， $PLA$ 算法可以帮助我们找到能够正确划分数据的超平面 $hyperplane$ ，即如图所示的那条线。

对于一个线性可分的资料，不会只存在一条线可以正确的划分 $\times$ 和 $\bigcirc$ 。如下图中有三条线可以完美的划分两个类别，但是哪一个是最好的划分呢？

对于 $PLA$ 算法来说，最终得到哪一条线是不一定的，取决于算法 $scan$ 数据的顺序。
从 $VC\ bound$ 的角度来说，我们所在意的 $E_{out}$ 会被 $E_{in}$ 和 $\Omega(H)$ 控制住，其中的 $E_{in}$ 指的是分类器在看过的资料上的表现，显然上述的三条线的 $E_{in}$ 都是 $0$ ， $\Omega(H)$ 是指复杂度，因为都是线性的分类器，所以都等于 $d+1$ 。
$E o u t (w) \leq E i n    0 + Ω (H)      d v c = d + 1$ $E_{out}(w) \le \underbrace{E_{in}}_{0} + \underbrace{\Omega(H)}_{d_{vc}=d+1}$

但是直观上来看，最右边的线应该会是比较好的 $hyperplane$ 。为什么最右边的分隔面最好呢？这里先给出一个简单直观的解释，因为最右边的线对于测量误差的容忍度是最好的。例如对于每张图片中左下角的样本点，当未来要判定与该点非常接近的点（有可能它们的 $feature$ 本来就是一样的,就是同样的一个样本，只不过因为测量的误差的存在，所以 $feature$ 变得有点不同了）的 $label$ 的时候，最右边的 $hyperplane$ 对这些误差会有最大的容忍度。这也是其最大的不同于左边两条线的地方。

从下面的图可以更加直观的看出，我们想要找一个离每一个样本点都很远的分隔线。这样对测量误差有更大的容忍度，就能更加避免过拟合的情况出现。（tolerate more noise $\longrightarrow$ more robust to overfitting）或者说，我们想找这样的一个超平面，离这个超平面最近的点的到这个超平面的距离也是很大的。

或者从另一角度来看，我们想要找的是“最胖”的那条线。有“多胖”是根据离该线最近的点距离它有多远来定义的。

1.2 - 最大间隔分类超平面

所以我们可以使用如下的稍微带点数学形式的表达方式来描述我们的需求：

m a x w s u b j e c t t o f a t n e s s (w) w c l a s s i f i e s e v e r y (x n, y n) c o r r e c t l y f a t n e s s (w) = m i n n = 1, \dots, N d i s t a n c e (x n, w)

$\begin{align*} max_w \quad & \ fatness(w) \\ subject \ to \quad & w \ classifies \ every \ (x_n, y_n) \ correctly \\ & fatness(w) = \mathop{min}\limits_{n=1,\cdots,N} \ \ distance(x_n, w) \end{align*}$

即我们要找一条线 $w$ ，首先这条线要正确的划分每一个样本 $( w \ classifies \ every \ (x_n, y_n) \ correctly)$ 。其次这条线要是所有能正确划分样本点的线中最”胖“的 $(max_w \ fatness(w))$ 。线 $w$ 的”胖”的衡量方法是：到所有的点中距离最近的点的长度作为该 $w$ 的 $fatness$ (胖瘦程度)。

一句话：找能正确划分数据的最胖的线。

在大多数的资料中，线的胖瘦 $fatness$ 被称为是 $margin$ ； $correctness$ 其实就是要求 $y\hat{y} = y_nw^Tx_n>0$

所以上述的表达可以进一步数学化为：

m a x w s u b j e c t t o m a r g i n (w) e v e r y y n w T x n > 0 m a r g i n (w) = m i n n = 1, \dots, N d i s t a n c e (x n, w)

$\begin{align*} max_w & \ \ \ margin(w) \\ subject \ to\ \ & \ \ every \ \ \ y_nw^Tx_n > 0 \\ &margin(w) = \mathop{min}\limits_{n=1,\cdots,N} \ distance(x_n, w) \end{align*}$

$\mathcal{GOAL}$ ：找有最大间隔（ $margin$ ）的分类超平面。

2 - 最大间隔问题

2.1 - 点到超平面的距离

上一小节给出了一个最优化问题，如果能够解决那个问题就可以得到最佳的线在哪里。我们把最终想要找到的那条线称为分隔超平面。该分隔超平面由 $w, b$ 决定，接下来所有的工作都是在找最佳的 $w, b$ ，从而得到最终的模型： $h(x) = sign(w^Tx + b)$ 。

下面开始来一点一点的变换上面的问题直到我们可以求解。

首先我们关注 $distance(x_n , w)$ 。也就是分隔超平面和样本点之间的距离。怎么算一个点 $x$ 到平面 $w^Tx+b=0$ 的距离呢？ $w^Tx+b=0$ 就是我们最终想要的分隔超平面。

考虑在平面上的两个点 $x', x''$ , 那么有

w T x' = - b, w T x'' = - b

$w^Tx' = -b, \ \ \ w^Tx'' = -b$
两式相减：

w T (x'' - x')          v e c t o r o n h y p e r p l a n e = 0

$w^T\underbrace{(x'' - x')}_{vector \ on \ hyperplane} = 0$
所以可以得到

w w $w$ 是该平面的法向量。（

x^{″} - x^{'} 是 该 平 面 的 任 意 向 量 ， w 和 该 平 面 的 任 意 向 量 垂 直

$x''-x'是该平面的任意向量，w和该平面的任意向量垂直$ ）。

那么一个任意点 $x$ 到平面 $(w, b)$ 的距离即是求 $x - x'$ 在 $w$ 上投影的长度，其中 $x'$ 为平面上的任意一个点。根据公式可以计算如下（投影）：

d i s t a n c e (x, b, w) = | w T | | w | | (x - x') | = 1 | | w | | | w T x + b |

$distance(x, b, w) = |\frac{w^T}{||w||}(x-x')| = \frac{1}{||w||}|w^Tx+b|$
其中，

b,w b , w $b, w$ 代表平面。第二步化简用到

wTx′=−b w T x ′ = − b $w^Tx' = -b$ 。这样我们就会求解点到平面的距离了。

需要注意的是，由于是分隔超平面，针对每一个样本 $(x_n, y_n)$ ，都有 $y_n(w^Tx_n + b) > 0$ ，利用这一点，样本点到分隔超平面的距离计算公式可以变为：

d i s t a n c e (x n, b, w) = 1 | | w | | y n (w T x n + b)

$distance(x_n, b, w) = \frac{1}{||w||}y_n(w^Tx_n+b)$
之所以可以这样做是因为我们只考虑那些能够正确分类的线。

即我们最初的目标变为：

m a x w . b s u b j e c t t o m a r g i n (w, b) e v e r y y n (w T x n + b) > 0 m a r g i n (w, b) = m i n n = 1, \dots, N 1 | | w | | y n (w T x n + b)

$\begin{align*} \mathop{max}\limits_{w.b} & \ \ \ margin(w, b) \\ subject \ to \ & \ \ every \ \ \ y_n(w^Tx_n + b) > 0 \\ &margin(w, b) = \mathop{min}\limits_{n=1,\cdots,N} \ \ \frac{1}{||w||}y_n(w^Tx_n+b) \\ \end{align*}$

还是不会求解，所以需要进一步简化。我们最终想要找的是一个 $hyperplane$ ，也就是 $w^Tx+b=0$ (我们现在在选择它的系数 $w$ 和 $b$ )。情况是这样的： $w^Tx+b=0$ 和 $3w^Tx+3b=0$ 是没有什么差别的，只是进行了系数的放缩，其实是一个超平面，在二维就表示同一条直线。既然这些系数的放缩是不会影响结果的，那么我们可不可以考虑一些比较特别的放缩使得问题变的简单一点呢？出于这样的考虑，在这里我们使用一个特别的放缩使得：

m i n n = 1, \dots, N y n (w T x n + b) = 1

$\mathop {min} \limits_{n=1, \cdots, N} \ \ y_n(w^Tx_n+b)=1$
通过调节

w,b w , b $w, b$ ，这样的放缩总是可以做到的。这样做的目的是为了使得：

m a r g i n (w, b) = 1 | | w | |

$margin(w, b) = \frac1{||w||}$

原来的问题变为：

m a x w . b s u b j e c t t o 1 | | w | | e v e r y y n (w T x n + b) > 0 m i n n = 1, \dots, N y n (w T x n + b) = 1

$\begin{align*} max_{w.b} & \ \ \ \frac1{||w||}\\ subject \ to \ & \ \ every \ \ \ y_n(w^Tx_n + b) > 0 \\ &\mathop{min}\limits_{n=1, \cdots, N} \ \ y_n(w^Tx_n+b)=1 \\ \end{align*}$

分析一下这个问题相较于上一次来说有什么变化：我们不再需要计算 $margin$ 了， $margin$ 就等于 $\frac1{||w||}$ ，但是为了保证 $margin = \frac1{||w||}$ ，我们又多了一个条件，就是要把 $w$ 缩放成恰好满足 $\mathop{min}\limits_{n=1, \cdots, N}y_n(w^Tx_n+b)=1$ ，直观上可以理解为得分最少的样本的分数 $(w^Tx_n+b)$ 与其 $label$ 的乘积为 $1$ 。
进一步可以变为：

\begin{aligned} \underset{w . b}{m a x} & \frac{1}{| | w | |} \\ s . t . & \underset{n = 1, \dots, N}{m i n} y_{n} (w^{T} x_{n} + b) = 1 \end{aligned}

$\begin{align*} \mathop{max}\limits_{w.b} & \ \ \ \frac1{||w||} \\ s.t. & \ \ \ \ \mathop{min}\limits_{n=1, \cdots, N} \ \ y_n(w^Tx_n+b)=1 \\ \end{align*}$

因为条件 $min_{n=1, \cdots, N} \ \ y_n(w^Tx_n+b)=1$ 包括 $every \ \ \ y_n(w^Tx_n + b) > 0$ ，并且比其更为严格，所以后者可以去掉。

我们进一步得到了看起来描述比较简单的间隔最大化问题的需求：最大化 $\frac1{||w||}$ ，并且满足最小的 $y_n$ 乘以分数的值为1。

m a x w . b s . t . 1 | | w | | m i n n = 1, \dots, N y n (w T x n + b) = 1

$\begin{align*} max_{w.b} & \ \ \ \frac1{||w||} \\ s.t. & \ \ \ \ min_{n=1, \cdots, N} \ \ y_n(w^Tx_n+b)=1 \\ \end{align*}$

虽然经过了很多的变换，使用了很多技巧，但是这个问题还是不会解。（接下来的变换的主要思想是，因为在上述最优化的问题的条件中有个 $min$ 的操作，我们希望把这个 $min$ 去掉，把条件放宽，然后在一个比较宽松的条件下求解原来的最优化问题，这样可能简单点，当然我们要保证在这个宽松的条件下求得的解依然满足原来比较严格的条件，不然是不可以这样做的。）
现在的目标是要把条件中的 $min$ 操作去掉。我们将条件 $\mathop{min}\limits_{n=1, \cdots, N} \ \ y_n(w^Tx_n+b)=1$ 放宽至： $for \ all \ n$ 都有 $y_n(w^Tx_n+b)\ge 1$ 。现在我们担心的问题是：原来的最优化问题的条件要求最小的 $y_n(w^Tx_n+b)$ 等于 $1$ ，而现在要求所有的 $y_n(w^Tx_n+b)$ 大于等于 $1$ 。那么在新的条件下求解原来的问题得到的最佳解 $w$ 会不会使得所有的 $y_n(w^Tx_n+b)$ 都大于 $1$ 了，这样我们放宽条件就出了问题，因为求得的解不在满足原来的条件了。
以下将证明，即使放宽了条件，最佳解依然满足原来的条件 $\mathop{min}\limits_{n=1, \cdots, N} \ \ y_n(w^Tx_n+b)=1$

反证法：

如果最佳解是 $(w, b)$ 并且该解使得所有的 $y_n(w^Tx_n+b)$ 都是大于1的，例如 $y_n(w^Tx_n+b) \ge 1.126$ ，那么我们进行一下缩放可知 $(\frac{w}{1.126}, \frac{b}{1.126})$ 也是放松后问题的解。但是此时 $\frac{w}{1.126}$ 显然比 $w$ 会有更大的 $\frac{1}{||w||}$ ，与假设 $(w, b)$ 是最佳解矛盾，也就是说不可能有最佳解使得所有的 $y_n(w^Tx_n+b)$ 都是大于1的。

新的问题变成：

m a x w . b s . t . 1 | | w | | y n (w T x n + b) \geq 1 f o r a l l n

$\begin{align*} max_{w.b} & \ \ \ \frac1{||w||} \\ s.t. & \ \ \ \ \ \ y_n(w^Tx_n+b) \ge1 \ for\ all\ n\\ \end{align*}$

变为最小化问题：

m i n w . b s . t . 1 2 w T w y n (w T x n + b) \geq 1 f o r a l l n

$\begin{align*} \mathop{min}\limits_{w.b} & \ \ \ \frac{1}{2}w^Tw \\ s.t. & \ \ \ \ \ \ y_n(w^Tx_n+b) \ge1 \ for\ all\ n\\ \end{align*}$

这就是我们最终想要解决的问题，当我们能找到这个问题中的 $w$ 和 $b$ 的时候，我们就可以说 $w^Tx+b = 0$ 就是我们要找的最胖的分隔边界。

3 - 支撑向量机

通过上一节的推导我们得到的问题称为标准问题，这个标准问题要最小化 $w$ 和自己的內积，需要满足的条件是对于每一个样本 $y_n$ 和得分 $w^Tx_n + b$ 的乘积要大于等于 $1$ 。

\begin{aligned} m i n_{w . b} & \frac{1}{2} w^{T} w \\ s . t . & y_{n} (w^{T} x_{n} + b) \geq 1 f o r a l l n \end{aligned}

$\begin{align*} min_{w.b} & \ \ \ \frac{1}{2}w^Tw \\ s.t. & \ \ \ \ \ \ y_n(w^Tx_n+b) \ge1 \ for\ all\ n\\ \end{align*}$

首先给出一个可以手工计算的例子来看看这个问题的求解过程。所有的样本点如下图所示：共有 $4$ 个样本， $2$ 个正例， $2$ 个负例。

每一个样本的具体信息如下：

\begin{matrix} (8) & X = [\begin{array}{cc} 0 & 0 \\ 2 & 2 \\ 2 & 0 \\ 3 & 0 \end{array}], Y = [\begin{matrix} - 1 \\ - 1 \\ + 1 \\ + 1 \end{matrix}] \end{matrix}

$\begin{equation} X = \left [ \begin{array}{cc} 0 & 0 \\ 2 & 2 \\ 2& 0 \\ 3 & 0 \\ \end{array} \right ], Y = \left [ \begin{array}{c} -1 \\ -1 \\ +1 \\ +1 \\ \end{array} \right ] \end{equation}$

根据最优化问题的要求最佳的 $w$ 需要满足以下4个条件：

\begin{aligned} - b \geq 1 & (i) \\ - & 2 w_{1} - 2 w_{2} & - b \geq 1 & (i i) \\ 2 w_{1} & + b \geq 1 & (i i i) \\ 3 w_{1} & + b \geq 1 & (i v) \end{aligned}

$\begin{align*} & & -b \ge 1 \quad &(i)\\ -&2w_1 - 2w_2 & - b \ge 1 \quad & (ii)\\ &2w_1 &+ b \ge 1 \quad & (iii)\\ &3w_1 & + b\ge 1 \quad & (iv) \end{align*}$

$(i) \ and \ (iii) \Longrightarrow w_1 \ge +1$
$(ii) \ and \ (iii) \Longrightarrow w_2 \le -1$

根据以上的两个式子可以得到：
$\frac12w^Tw \ge 1$ ，所以我们的目标函数，最小最小的时候也是 $1$ 。我们可以令 $w_1=1, w_2 = -1, b=-1$ 。这样的话不仅仅满足了条件 $(i)\backsim(iv)$ ，也使得 $target\ function$ 取得了最小的值 $1$ 。其中 $b$ 的值可以通过计算一个范围得到。这样我们就得到了我们最想要的 $hyperplane$ ： $g_{svm}:x_1-x_2-b = 1$ 。从图中可以看出来这条线是比较胖的。这就是我们想要找的支撑向量机。此时 $margin = \frac{1}{||w||}=\frac1{\sqrt{2}}$ 。

为什么要叫支撑向量机呢？在我们找到了这条最胖的线之后我们发现有一些点离这条线是很近的。也就是如图用方框框起来的那些点。其实只要这些点就可以确定我们想要的 $hyperplane$ ，我们把这些点叫做 $Support\ Vector$ 。可以理解为这些支撑向量就可以确定我们想要的分割超平面，而不需要其他的点。

3.1 - SVM的一般解法

m i n w . b s . t . 1 2 w T w y n (w T x n + b) \geq 1 f o r a l l n

$\begin{align*} min_{w.b} & \ \ \ \frac{1}{2}w^Tw \\ s.t. & \ \ \ \ \ \ y_n(w^Tx_n+b) \ge1 \ for\ all\ n\\ \end{align*}$

通过分析可知，我们想要最小化的问题是个 $w$ 的二次函数，该问题的条件是 $w$ 的线性一次式。我们把这样的问题叫做二次规划（Quadratic programming）所以我们的一个解法是将我们的问题表示为二次规划的标准形式，然后就可以调用二次规划的包进行运算。

3.2 - 标准的二次规划问题

o p t i m a l u ⟵ m i n u s u b j e c t t o Q P (Q, p, A, c) 1 2 u T Q u + p T u a T m u \geq c m f o r m = 1, 2, \dots, M

$\begin{align*} optimal \quad u \longleftarrow &\quad QP(Q, p, A, c) \\ min_u \quad &\frac12u^TQu+p^Tu \\ subject\ to\quad & a_m^Tu \ge c_m \\ & for\ m = 1, 2, \cdots, M \end{align*}$

所以我们只要确定其中的系数 $Q, p, A, c$ ，这样就可以求解出最佳的分割线。

u = [b w]; Q = [0 0 d 0 T d I d]; p = 0 d + 1 a T N = y n [1 x T n]; c n = 1; M = N (4)

$\begin{equation} u= \left [ \begin{array}{c} b \\ w \end{array} \right ] ; Q= \left [ \begin{array}{cc} 0 & 0_d^T \\ 0_d & I_d \\ \end{array} \right ]; p=0_{d+1} \\ a_N^T = y_n \left [ \begin{array}{cc} 1 & x_n^T \\ \end{array} \right ]; c_n = 1; M=N \end{equation}$

这样就将我们想要求解的最佳化问题变为二次规划问题。

3.3 - 使用二次规划的方法求解 $SVM$

线性可分的硬间隔 $SVM$ 算法
Linear Hard-Margin SVM Algorithm

表示为规范的 $QP$ 问题，给出其中的参数 $Q, p, A, c$
$w, b \longleftarrow QP(Q, p, A, c)$
$return\ \ w, b\ \ as\ \ g_{svm}$

$note：$

$hard$ - $margin$ ：表明我们坚持要将正例和负例完全的分开，不允许有误分的点。
$linear$ ：表明我们是在使用 $x$ 来训练 $SVM$ ，我们得到的是在 $X$ 空间中的分割超平面。而没有经过任何的特转换。
所以如果我们想要一个非线性的 $hyperplane$ ，可以使用 $z = \Phi(x)$

到了现在我们已经知道怎么来求解这个 $SVM$ 的问题了，如果你想要做非线性的，那么只要把 $x$ 变为 $z$ 就好了。

m i n w . b s . t . 1 2 w T w y n (w T z n + b) \geq 1 f o r a l l n

$\begin{align*} min_{w.b} & \ \ \ \frac{1}{2}w^Tw \\ s.t. & \ \ \ \ \ \ y_n(w^Tz_n+b) \ge1 \ for\ all\ n\\ \end{align*}$

那么，为什么 $SVM$ 这样的模型会有比较好的效果呢？在之前简单的说过，一条胖的线可以抵挡比较多测量误差。
在这里我们把 $SVM$ 和我们之前提到的一个工具 $regularization$ 做简单的对比。在我们做 $learning$ 的时候，我们想要把 $E_{in}$ 最小化，又担心在最小化 $E_{in}$ 的时候会出现 $overfitting$ 的状况，所以我们就加了一个限制 $w$ 长度的项： $w^Tw \le C$ ；我们发现在 $SVM$ 中同样也做了这两件事情，不过这两件事的位置对调了：在 $SVM$ 中，我们最小化的不是 $E_{in}$ 而是 $w$ 的长度 $w^Tw$ ，加的限制条件变成了要将 $E_{in}$ 做成 $0$ 。所以从这个层面上来看， $SVM$ 本身做到了和 $regularization$ 相同的事情。