手推SVM 支持向量机的简易推导和理解

最新推荐文章于 2024-05-18 10:00:00 发布

小鹅鹅

最新推荐文章于 2024-05-18 10:00:00 发布

阅读量5.9k

点赞数 7

分类专栏：机器学习文章标签： SVM 支持向量机机器学习核函数分类器

本文链接：https://blog.csdn.net/asd136912/article/details/79192239

版权

机器学习专栏收录该内容

14 篇文章 3 订阅

订阅专栏

前言

SVM - support vector machine, 俗称支持向量机，为一种监督学习算法，是一种二分类模型，学习策略是间隔最大化，可以形式为一个求解凸二次规划问题(此篇博客主要讲述)，也等价于正则化的合页损失函数的最小化问题(Coursera 吴恩达机器学习课程里面讲的SVM)。
支持向量机的优点：

可用于高维空间中的数据分类
在数据维度高于样本个数时，仍然可以有效学习
真正对支持向量机产生影响的是支持向量，通常支持向量只占一小部分，所以，其内存消耗低
多功能性。可选的核有很多，既有常用的核函数，也可自行定制特殊的核函数。

此篇博客大概会记录SVM的简单推导和大概理解，关于前置SVM的前置知识可以在之前的博文或者以下链接找到，在此就不加大篇幅阐述啦。

拉格朗日对偶性
希尔伯特空间
正定/非正定矩阵

关于这个图片的来源：2009年在Pittsburgh举行的G20峰会现场外面这位同学鱼目混珠的高举Support Vector Machine的牌子。你说你支持加强控制二氧化碳排放我懂，你支持的的这个Vector Machine是个什么东西啊？ (有点冷)—Pluskid’s blog

-

1. 线性可分支持向量机

我们首先先看SVM最简单的模型：线性可分支持向量机。学习目标是在特征空间找打一个分离超平面，将不同标记的样本分离且样本离分离超平面间隔最大。

上图就很好的阐述了SVM的学习目标，找到了距离苹果与香蕉最大Margin的Boundary。其中涂上颜色的苹果和香蕉就称作支持向量(Support Vector)，具体定义是训练数据集的样本点与分隔超平面最近的样本点。

我们设该超平面函数为 $f(x)$

$f (x) = s i g n (w * x + b *)$ $f(x)=sign(w^*x+b^*)$

函数间隔

在特征空间中，一个点距离分隔超平面的远近可以表示为分类的确信程度。点 $x$ 距离超平面的距离为:
$| w \cdot x + b |$ $|w\cdot x+b|$
这里我们引入函数间隔的概念，我们使用 $\hat\gamma_i$ 来表示点 $x_i$ 的函数间隔:

$γ^i = y i (w \cdot x i + b)$ $\hat\gamma_i=y_i(w\cdot x_i+b)$

几何间隔

但是如果我们成倍的增大或者缩小 $和和和w和b$ ，函数间隔也会成倍地增大或者缩小。为了固定间隔大小，我们继续引入集合间隔的概念。我们对法向量 $w$ 加某些约束，使得间隔是确定的:

$γ_{i} = y_{i} (\frac{w}{| | w | |} x_{i} + \frac{b}{| | w | |})$ $\gamma_i=y_i(\frac{w}{||w||}x_i+\frac{b}{||w||})$
易得 $\gamma = \frac{\hat\gamma}{||w||}$ ，其中 $||w||$ 为 $w$ 的L2范数。

间隔最大化

接下来回到最开始的问题上面了，如何使分隔超平面的间隔最大化呢？我们可以将问题描述成下面数学形式：

$max_{w, b} γ s . t . y_{i} (\frac{w}{| | w | |} x_{i} + \frac{b}{| | w | |}) \geq γ$ $\max_{w,b} \gamma \\s.t. \ \ y_i(\frac{w}{||w||}x_i+\frac{b}{||w||}) \ge \gamma$
考虑几何间隔和函数间隔的关系式，可以改写为：

$max w, b γ ^ | | w | | s . t . y i (w \cdot x i + b) \geq γ$ $\max_{w,b} \frac{\hat\gamma}{||w||} \\s.t. \ \ y_i(w\cdot x_i+b) \ge \gamma$
我们注意到函数间隔 $\hat\gamma$ 的取值不影响最优化问题的解，我们取 $\hat\gamma=1$ 。并且可以得出最大化 $\frac{1}{||w||}$ 和最小化 $\frac{1}{2}||w||^2$ 是等价的，于是得到下面的最优化问题：
$min w, b 1 2 | | w | | 2 s . t . y i (w \cdot x i + b) - 1 \geq 0$ $\min_{w,b} \frac{1}{2}||w||^2 \\s.t. \ \ y_i(w\cdot x_i+b) -1 \ge 0$
将问题转化成此形式是为了方便我们之后用拉格朗日对偶性来求解。在此之前，我们可以证明最大间隔分离超平面的存在性和唯一性。(此处证明略)

引入拉格朗日对偶性

可以分为两个步骤：
首先构建拉格朗日函数

$L (w, b, α) = 1 2 | | w | | 2 - \sum i = 1 N α i y i (w \cdot x i + b) + \sum i = 1 N α i$ $L(w,b,\alpha)=\dfrac{1}{2}||w||^2-\sum_{i=1}^N\alpha_iy_i(w\cdot x_i+b)+\sum_{i=1}^N\alpha_i$
令L的偏导数为零，即
$\nabla w L (w, b, α) = 0 \nabla b L (w, b, α) = 0} ⟹ {w = \sum N i = 1 α i y i x i \sum N i = 1 α i y i = 0$ $\left. \begin{matrix}\nabla_{w}L(w,b,\alpha)=0 \\ \nabla_bL(w,b,\alpha)=0 \end{matrix}\right\}\Longrightarrow\left\{\begin{matrix}w=\sum_{i=1}^N\alpha_iy_ix_i \\ \sum_{i=1}^N\alpha_iy_i=0\end{matrix}\right.$
代入 $L(w,b,\alpha)$ 构造并求解约束最优化问题:
$min α s . t . 1 2 \sum N i = 1 \sum N j = 1 α i α j y i y j (x i \cdot x j) - \sum N i = 1 α i \sum N i = 1 α i y i = 0 α i \geq 0, i = 1, 2, . . ., N$ $\begin{array}{l}\min_\alpha & \dfrac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)-\sum_{i=1}^N\alpha_i \\ s.t. & \sum_{i=1}^N\alpha_iy_i=0 \\&\alpha_i\geq0,i=1,2,...,N \end{array}$
考虑原始最优化问题和对偶最优化问题，原始问题满足拉格朗日对偶性中的定理2的条件，所以存在 $w^∗,b^∗,α^∗$ ，使 $w^∗,b^∗$ 是原始问题的解， $α^∗$ 是对偶问题的解。 (这里省略了构造对偶问题，直接给出了结果)
对线性可分训练数据集，假设对偶最优化问题对 $α$ 的解为 $\alpha^*=(\alpha_1^*,\alpha_2^*,...,\alpha_N^*)^T$
KTT条件成立，则

$\nabla w L (w *, b *, α *) = w * - \sum N i = 1 α * i y i x i = 0 \nabla b L (w *, b *, α *) = - \sum N i = 1 α * i y i = 0 α * i \geq 0, i = 1, 2, . . ., N α * i (y i (w * \cdot x i + b *) - 1) = 0, i = 1, 2, . . ., N y i (w * \cdot x i + b *) - 1 \geq 0, i = 1, 2, . . ., N$ $\begin{array}{c}\nabla_wL(w^*,b^*,\alpha^*)=w^*-\sum_{i=1}^N\alpha_i^*y_ix_i=0 \\ \nabla_bL(w^*,b^*,\alpha^*)=-\sum_{i=1}^N\alpha_i^*y_i=0 \\ \alpha_i^*\geq0, \space i=1,2,...,N \\ \alpha_i^*(y_i(w^*\cdot x_i+b^*)-1)=0,\space i=1,2,...,N \\ y_i(w^*\cdot x_i+b^*)-1\geq0,\space i=1,2,...,N\end{array}$
可得
$w * = \sum i = 1 N α * i y i x i$ $w^*=\sum_{i=1}^N\alpha_i^*y_ix_i$
其中在 $α$ 中至少有一个 $α_j>0$ (反证法，如果不存在，那么 $w^∗=0$ ，而 $w^∗=0$ 不是原始优化问题的最优解)，此时 $y_j(w^*\cdot x_j+b^*)-1=0$ 将上式代入该式中，有
$y j (\sum i = 1 N α * i y i (x i \cdot x j) + b *) - 1 = 0$ $y_j(\sum_{i=1}^N\alpha_i^*y_i(x_i\cdot x_j)+b^*)-1=0$
注意到 $或者或者或者y^2_j=1(y=1或者-1)$ ，可得
$b * = y j - \sum i = 1 N α * i y i (x i \cdot x j)$ $b^*=y_j-\sum_{i=1}^N\alpha_i^*y_i(x_i\cdot x_j)$
分离超平面为 $w * \cdot x + b * = 0$ $w^*\cdot x + b^*=0$

小总结：

至此线性可分支持向量机(硬间隔最大化)已推导完毕。可以看出，线性可分支持向量机中， $w^∗,b^∗$ 只依赖于训练数据中对应 $α∗i>$ 0的样本点 $(x_i,y_i)$ ，而其它样本点对 $和和和w^∗和b^∗$ 没有影响，这些实例点称为支持向量。

但是在显示情况，样本中往往有噪音特异点，导致样本集线性不可分。怎样才能将其拓展到线性不可分问题呢？我们需要修改硬间隔最大化=>软间隔最大化。

2. 线性支持向量机(线性不可分情况)

线性不可分意味着某些样本点不能满足函数间隔大于1的约束条件，为此，我们为每一个样本点引入一个松弛变量 $ξ_i$ ，使得约束条件变为

$y i (w * \cdot x i + b) \geq 1 - ξ i$ $y_i(w^*\cdot x_i+b)\geq1-\xi_i$

同时，在目标函数中加入惩罚项，如下

$1 2 | | w | | 2 + C \sum i = 1 N ξ i$ $\dfrac{1}{2}||w||^2+C\sum_{i=1}^N\xi_i$

其中C>0称为惩罚参数，此时线性不可分的线性支持向量机的学习问题变成了如下凸二次规划问题：

$min w, b, ξ s . t . 1 2 | | w | | 2 + C \sum N i = 1 ξ i y i (w \cdot x i + b) \geq 1 - ξ i, i = 1, 2, . . ., N ξ i \geq 0, i = 1, 2, . . ., N$ $\begin{array}{l}\min_{w,b,\xi} & \dfrac{1}{2}||w||^2+C\sum_{i=1}^N\xi_i \\ s.t. & y_i(w\cdot x_i+b)\geq 1-\xi_i, \space i=1,2,...,N \\ & \xi_i\geq0, i=1,2,...,N\end{array}$

可以证明w的解是唯一的，但b的解不唯一，b的解在一个区间中。

像线性可分向量机一样，我们先构造出原始问题的拉格朗日函数：

$L (w, b, ξ, α, μ) = 1 2 | | w | | 2 + C \sum i = 1 N ξ i - \sum i = 1 N α i (y i (w \cdot x i + b) + ξ i - 1) - \sum i = 1 N μ i ξ i$ $L(w,b,\xi,\alpha,\mu)=\dfrac{1}{2}||w||^2+C\sum_{i=1}^N\xi_i-\sum_{i=1}^N\alpha_i(y_i(w\cdot x_i+b)+\xi_i-1)-\sum_{i=1}^N\mu_i\xi_i$

其中
$α i \geq 0, μ i \geq 0$ $\alpha_i\geq0,\mu_i\geq0$ 令 $L(w,b,\xi,\alpha,\mu)$ 的偏导为0：

$\nabla w L (w, b, ξ, α, μ) = 0 \nabla b L (w, b, ξ, α, μ) = 0 \nabla ξ i L (w, b, ξ, α, μ) = 0 ⎫ ⎭ ⎬ ⎪ ⎪ ⟹ ⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ w = \sum N i = 1 α i y i x i \sum N i = 1 α i y i = 0 C = α i + μ i, i = 1, 2, . . ., N$ $\left.\begin{array}{l}\nabla_wL(w,b,\xi,\alpha,\mu)=0 \\ \nabla_bL(w,b,\xi,\alpha,\mu)=0 \\ \nabla_{\xi_i}L(w,b,\xi,\alpha,\mu)=0\end{array}\right\}\Longrightarrow\left\{\begin{array}{l}w=\sum_{i=1}^N\alpha_iy_ix_i \\ \sum_{i=1}^N\alpha_iy_i=0 \\ C=\alpha_i+\mu_i,i=1,2,...,N\end{array}\right.$

将计算偏导的结果代入拉格朗日函数中可得

$min w, b, ξ L (w, b, ξ, α, μ) = - 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j (x i \cdot x j) + \sum i = 1 N α i$ $\min_{w,b,\xi}L(w,b,\xi,\alpha,\mu)=-\dfrac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)+\sum_{i=1}^N\alpha_i$

使用拉格朗日对偶性求对偶问题可得解 $\alpha^*=(\alpha_1^*,\alpha_2^*,...,\alpha_N^*)^T$ 若存在 $\alpha^*$ 的一个分量 $\alpha_j^*, 0<\alpha_j^*<C$ 且原始问题是凸二次规划问题，解 $(w^∗,b^∗)$ 满足KKT条件，即得

$\nabla w L (w *, b *, ξ *, α *, μ *) = w * - \sum N i = 1 α * i y i x i = 0 \nabla b L (w *, b *, ξ *, α *, μ *) = - \sum N i = 1 α * i y i = 0 \nabla ξ L (w *, b *, ξ *, α *, μ *) = C - α * - μ * = 0 α * i (y i (w * \cdot x i + b *) - 1 + ξ * i) = 0, i = 1, 2, . . ., N μ * i ξ * i = 0, i = 1, 2, . . ., N y i (w * \cdot x i + b *) - 1 + ξ * i \geq 0, i = 1, 2, . . ., N ξ * i \geq 0, i = 1, 2, . . ., N α * i \geq 0, i = 1, 2, . . ., N μ * i \geq 0, i = 1, 2, . . ., N$ $\begin{array}{c}\nabla_wL(w^*,b^*,\xi^*,\alpha^*,\mu^*)=w^*-\sum_{i=1}^N\alpha_i^*y_ix_i=0 \\ \nabla_bL(w^*,b^*,\xi^*,\alpha^*,\mu^*)=-\sum_{i=1}^N\alpha_i^*y_i=0 \\ \nabla_\xi L(w^*,b^*,\xi^*,\alpha^*,\mu^*)=C-\alpha^*-\mu^*=0 \\ \alpha_i^*(y_i(w^*\cdot x_i+b^*)-1+\xi_i^*)=0, \space i=1,2,...,N \\ \mu_i^*\xi_i^*=0, \space i=1,2,...,N \\ y_i(w^*\cdot x_i+b^*)-1+\xi_i^*\geq0, \space i=1,2,...,N \\ \xi_i^*\geq0 , \space i=1,2,...,N \\ \alpha_i^*\geq0 , \space i=1,2,...,N\\ \mu_i^*\geq0, \space i=1,2,...,N\end{array}$

由于 $0<α^∗_j<C$ ，所以 $ξ_j=0$ ,则 $y_j(w^∗⋅x_j+b^∗)−1=0$ ，联合第一个公式得

$w * = \sum N i = 1 α * i y i x i b * = y j - \sum N i = 1 α * i y i (x i \cdot x j)$ $\begin{array}{c}w^*=\sum_{i=1}^N\alpha_i^*y_ix_i \\ b^*=y_j-\sum_{i=1}^N\alpha_i^*y_i(x_i\cdot x_j)\end{array}$

求得分离超平面

$w * \cdot x + b * = 0$ $w^*\cdot x+b^*=0$

由于原始问题对b的解并不唯一，所以实际计算时可以取在所有符合条件的样本点上的平均值。

3. 非线性支持向量机

如图所示，非线性支持向量机将样本空间的样本点使用一个圆形分隔开来。

核技巧(kernel trick)

线性分类方法求解非线性分类问题可分为两步：
(1) 使用一个变换将原空间的数据映射到新空间；
(2) 在新空间里用线性分类学习方法从训练数据中学习分类模型。
这种方法就称为核技巧。

核函数

设 $T$ 是输入空间（欧式空间 $R^n$ 的子集或离散集合），又设 $\mathcal H$ 为特征空间（希尔伯特空间），如果存在一个从 $T$ 到 $\mathcal H$ 的映射

$ϕ (x) : T \to H$ $\phi(x):T\rightarrow\mathcal H$

使得对所有 $x,z∈T$ ，核函数 $K(x,z)$ 满足条件

$K (x, z) = ϕ (x) \cdot ϕ (z)$ $K(x,z)=\phi(x)\cdot\phi(z)$

则称 $K(x,z)$ 为核函数， $ϕ(x)$ 为映射函数，式中 $ϕ(x)⋅ϕ(z)$ 为 $ϕ(x)$ 和 $ϕ(z)$ 的内积。

结合线性支持向量机算法的 $b^∗,w^∗$ 公式来看，核技巧的想法是，在学习和预测中只定义核函数 $K(x,z)$ ，而不显示地定义映射函数 $ϕ$ 。在非线性支持向量机中使用核函数 $K$ ，则 $K$ 需要满足正定核的充要条件：

设 $K$ 为 $\mathcal X \times \mathcal X\to R$ 是对称函数则 $K(x,z)$ 为正定核函数的充要条件是对任意 $x_i \in \mathcal X,i=1,2..m,K(x,z)$ 为Gram矩阵

$K = [K (x i, x j)] m \times m$ $K=[K(x_i,x_j)]_{m\times m}$

常用核函数
多项式核函数

$K (x, z) = (x \cdot z + 1) p f (x) = s i g n (\sum i = 1 N s α * i y i (x i \cdot x + 1) p + b *)$ $K(x,z)=(x\cdot z+1)^p \\ f(x)=sign(\sum^{N_s}_{i=1}\alpha^*_iy_i(x_i\cdot x+1)^p+b^*)$
高斯核函数

$K (x, z) = e x p (- | | x - z | | 2 2 σ 2) f (x) = s i g n (\sum i = 1 N s α * i y i e x p (- | | x - z | | 2 2 σ 2) + b *)$ $K(x,z)=exp(- \frac{||x-z||^2}{2\sigma^2}) \\ f(x)=sign(\sum^{N_s}_{i=1}\alpha^*_iy_iexp(- \frac{||x-z||^2}{2\sigma^2})+b^*)$
字符串核函数

非线性支持向量机学习算法

选择合适的核函数K(x,z)和惩罚参数C>0，构造并求解凸二次规划问题
$min α s . t . 1 2 \sum N i = 1 \sum N j = 1 α i α j y i y j K (x i, x j) - \sum N i = 1 α i \sum N i = 1 α i y i = 0 0 \leq α i \leq C, i = 1, 2, . . ., N$ $\begin{array}{ll}\min_{\alpha} & \dfrac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_jK(x_i,x_j)-\sum_{i=1}^N\alpha_i \\ s.t. & \sum_{i=1}^N\alpha_iy_i=0 \\ & 0\leq\alpha_i\leq C, \space i=1,2,...,N\end{array}$
求的最优解 $\alpha^*=(\alpha^*_1,\alpha^*_2..\alpha^*_n)^T$
选择 $α^∗$ 的一个分量 $α^∗_j$ 适合条件 $0<α^∗_j<C$ ，计算

$b * = y j - \sum i = 1 N α * i y i K (x i, x j)$ $b^*=y_j-\sum_{i=1}^N\alpha_i^*y_iK(x_i,x_j)$

分类决策函数为：

$f = s i g n (\sum i = 1 N α i y i K (x, x i) + b *)$ $f=sign(\sum_{i=1}^N\alpha_iy_iK(x,x_i)+b^*)$

这些算法通常需要借助序列最小优化算法(Sequential minimal optimization, SMO)实现，简化版的伪代码可以表示为：

创建一个alpha向量并将其初始化为O 向量当迭代次数小于最大迭代次数时（外循环）对数据集中的每个数据向量（内循环）：如果该数据向量可以被优化：随机选择另外一个数据向量同时优化这两个向量如果两个向量都不能被优化，退出内循环如果所有向量都没被优化，增加迭代数目，继续下一次循环

参考文献

http://blog.pluskid.org/?p=632
https://www.zhihu.com/question/21094489/answer/117246987
李航，统计学习方法
周志华，机器学习
Peter Harrington，机器学习实战
http://bytesizebio.net/2014/02/05/support-vector-machines-explained-well/
https://www.youtube.com/watch?v=3liCbRZPrZA （很直观解释的视频）
https://www.zhihu.com/question/21094489/answer/302111240 (SVM的考题)