支持向量机(SupportVectorMachine)笔记

最新推荐文章于 2024-07-12 18:56:03 发布

Easofm

最新推荐文章于 2024-07-12 18:56:03 发布

阅读量292

点赞数 1

文章标签：算法支持向量机 svm 机器学习

本文链接：https://blog.csdn.net/u014675396/article/details/105813924

版权

Prequisite

吃饱喝足

线性可分SVM

引入

假设给定训练集：
$T=\{(x_1, y_1),(x_2, y_2),\cdots,(x_n, y_n)\}$
其中， $x_i\in R^p,y\in Y=\{-1,1\},i=1,2,\cdots,n$ ，并且假设有样本集线性可分。
设有分离超平面：
$w^Tx+b=0$
使得样本集被分成正负两部分。
以及分类决策函数：
$f(x)=sign(w^Tx+b)$
并有 $w^Tx+b>0$ 时，为正类； $w^T+b<0$ 时，为负类。

很自然的，我们只需要：
$y_i(w^Tx_i+b)>0$
对每个样本 $x_i,y_i)$ 成立即可。
但这存在一个问题，考虑下面一个例子：
在这里插入图片描述
可以发现，满足上面条件的超平面有无穷多个。但是从样本点来看，是存在一个相比较而言更加好的一个超平面，那么就是处于 $H_1,H_2$ 中间的超平面，而SVM正是可以求解这个最优超平面的算法。

算法

Functional/Geometric Margin

首先介绍两个概念：
函数间隔(functional margin):
$\hat\gamma_i=y_i(w^Tx_i+b)$
假如，我们已经求解得到最优超平面，即是有 $w, b$ 。但是，实际上 $\lambda w,\lambda b$ 也同样为那个最优超平面的系数。因此，首先，基于这一点，函数间隔只能描述相对大小；其二，为了解决这个多解问题，我们应该引入一些限制条件，比如 $\vert\vert w\vert\vert=1$ ，进行归一化。而为了不受 $w, b$ 的成倍变化带来的大小变化，我们引入几何间隔。
几何间隔(geometric margin):
$\gamma_i=\frac{y_i(w^Tx_i+b)}{\vert\vert w\vert\vert}$
注意：上述距离一般为，带符号的距离(signed distance)，而当样本点被正确分类时，那么就成为样本点到超平面的距离。

硬间隔最大化

SVM的间隔最大化思想就是，找到 $w, b$ 使得，距离超平面最近的那个点，其到超平面的距离最大。基于这个想法，我们有：
$\begin{aligned} &\max_{w,b}\min_{i}\gamma_i\\ &s.t.\quad y_i(w^Tx_i+b)>0,i=1,2,\cdots,n\\ 又:\\ &\gamma_i=\frac{y_i(w^Tx_i+b)}{\vert\vert w\vert\vert}\\ 有:\\ &\max_{w,b}\min_{i}\frac{y_i(w^Tx_i+b)}{\vert\vert w\vert\vert}\\ &=\max_{w,b}\frac{1}{\vert\vert w\vert\vert}\min_{i}y_i(w^Tx_i+b)\\\end{aligned}$

又由上文分析， $y_i(w^Tx_i+b)=\hat\gamma_i$ 可以被任意放缩，那么：
$\begin{aligned}令：\\ &\min_i\hat\gamma_i=1\\ 问题转化为：\\ &\max_{w,b}\frac{1}{\vert\vert w\vert\vert}\\ &s.t.\quad y_i(w^Tx_i+b)\ge1,i=1,2,\cdots,n\\ 也即是:\\ &\min_{w,b}\frac{1}{2}w^Tw\\ &s.t.\quad y_i(w^Tx_i+b)\ge1,i=1,2,\cdots,n\\ \end{aligned}$

对偶算法

拉格朗日函数

通过上文的分析，我们得到目标函数和限制条件：
$\begin{aligned} &\min_{w,b}\frac{1}{2}w^Tw\\ &s.t.\quad 1-y_i(w^Tx_i+b)\le0,i=1,2,\cdots,n\\ \end{aligned}$
很自然的，我们想到构造拉格朗日函数，有：
$\begin{aligned} &\mathcal L(w,b,\lambda_i)=\frac{1}{2}w^Tw+\sum_i^n\lambda_i(1-y_i(w^Tx_i+b))\\ &s.t\quad \lambda_i\ge0\\ \end{aligned}$
此时，问题就变成了,无约束的优化问题：
$\begin{aligned} \min_{w,b}\max_{\lambda_i}&\mathcal L(w,b,\lambda_i)=\frac{1}{2}w^Tw+\sum_i^n\lambda_i(1-y_i(w^Tx_i+b))\\ &s.t\quad \lambda_i\ge0\\ \end{aligned}$

对偶转换

由拉格朗日的对偶性，我们可以知，上述问题可以转换为：
$\begin{aligned} \max_{\lambda_i}\min_{w,b}&\mathcal L(w,b,\lambda_i)=\frac{1}{2}w^Tw+\sum_i^n\lambda_i(1-y_i(w^Tx_i+b))\\ &s.t\quad \lambda_i\ge0\\ \end{aligned}$
关于为什么要进行对偶转换，原因有两点：1.更容易求解。2.自然引入核函数，进来推广到非线性空间。

对偶问题证明

please jump：SVM对偶问题

对偶问题的求解

由上文可知对偶问题为：
$\begin{aligned} \max_{\lambda_i}\min_{w,b}&\mathcal L(w,b,\lambda_i)=\frac{1}{2}w^Tw+\sum_i^n\lambda_i(1-y_i(w^Tx_i+b))\\ &s.t\quad \lambda_i\ge0\\ \end{aligned}$
现在就来求解 $w, b$ ：
先看min部分：
$\begin{aligned} &\min_{w,b}\mathcal L(w,b)=\frac{1}{2}w^Tw+\sum_i^n\lambda_i(1-y_i(w^Tx_i+b))\\ &\qquad \qquad\quad =\frac{1}{2}w^Tw+\sum_i^n\lambda_i-\sum_i^n\lambda_i y_i(w^Tx_i+b))\\ &\frac{\partial L(w,b)}{\partial b}=-\sum_i^n\lambda_iy_i =0\\ &\frac{\partial L(w,b)}{\partial w}=w-\sum_i^n\lambda_iy_ix_i=0\\ 综上有：\\ &\sum_i^n\lambda_iy_i =0\\ &w=\sum_i^n\lambda_iy_ix_i\\ 代入对偶问题有：\\ &\max_{\lambda_i}\mathcal L(\lambda_i)=\frac{1}{2}(\sum_i^n\lambda_iy_ix_i)^T(\sum_i^n\lambda_iy_ix_i)+\sum_i^n\lambda_i-\sum_i^n\lambda_iy_i(w^Tx_i+b)\\ &\qquad\qquad\ \ \, =\frac{1}{2}(\sum_i^n\lambda_iy_ix_i)^T(\sum_j^n\lambda_jy_jx_j)+\sum_i^n\lambda_i-\sum_i^n\lambda_iy_i((\sum_j^n\lambda_jy_jx_j)^Tx_i)\\ &\qquad\qquad\ \ \,-\sum_i^n\lambda_iy_ib\\ &\qquad\qquad\ \ \,=\frac{1}{2}\sum_i^n\sum_j^n(\lambda_iy_ix_i)^T\lambda_jy_jx_j-\sum_i^n\sum_j^n\lambda_iy_i(\lambda_jy_jx_j)^Tx_i+\sum_i^n\lambda_i\\ &\qquad\qquad\ \ \,=\frac{1}{2}\sum_i^n\sum_j^n(\lambda_i\lambda_jy_iy_j)x_i^Tx_j-\sum_i^n\sum_j^n(\lambda_i\lambda_jy_iy_j)x_j^Tx_i+\sum_i^n\lambda_i\\ &又\quad x_j^Tx_i=x_i^Tx_j\\ &\qquad\qquad\ \ \,=-\frac{1}{2}\sum_i^n\sum_j^n(\lambda_i\lambda_jy_iy_j)x_i^Tx_j+\sum_i^n\lambda_i\\ \end{aligned}$
综上，max部分为：
$\max_{\lambda_i} \mathcal L(\lambda_i)=-\frac{1}{2}\sum_i^n\sum_j^n(\lambda_i\lambda_jy_iy_j)x_i^Tx_j+\sum_i^n\lambda_i$
即是：
$\begin{aligned} &\min_{\lambda_i} \mathcal L(\lambda_i)=\frac{1}{2}\sum_i^n\sum_j^n(\lambda_i\lambda_jy_iy_j)x_i^Tx_j-\sum_i^n\lambda_i\\ &s.t.\quad \lambda_i\ge0\\ &\sum_i^n\lambda_iy_i =0 \end{aligned}$
假设求得： $\lambda^*=(\lambda_1,\lambda_2,\cdots,\lambda_n)$ ，那么只需要带入 $\sum_i^n\lambda_iy_ix_i$ ，即可解得 $w^*$ ，又通过 $w{^*}^Tx_i+b=1,\lambda_i\ge0$ ，即可解得 $b^*$ 。此时 $x_i$ 也被称为支持向量(support vector)。

软间隔最大化

在实际的数据集中，总会存在着噪点(noise)，或者离群点(outlier)。考虑下图：
在这里插入图片描述
那么显然，这个已经无法简单用一个超平面来解决问题了。面对这样的情况，我们有三个方法，原始数据层面，我们可以做数据清洗，或者特征工程。二是利用非线性模型（实际上，在这里用非线性模型过于大材小用，或者不合理。因为这显然是一个线性可分，但是存在噪点的数据集）。第三个办法就是，允许我们SVM模型可以进行误分类。即是说上文的：
$y_i(w^Tx_i+b)\ge1,i=1,2,\cdots,n$
可以对部分样本不成立。那么问题就在于如果巧妙的将允许犯错加入到SVM模型中。

合页损失函数（hinge loss function）

由于有些样本会导致：
$y_i(w^Tx_i+b)<1,i=1,2,\cdots,n$
很自然的，我们就希望能纠正这一点，若犯错，需纠正数值为：
$\Delta=1-y_i(w^Tx_i+b),\ given \ y_i(w^Tx_i+b)<1$
从而使得：
$y_i(w^Tx_i+b)+\Delta\ge1,\ given\ y_i(w^Tx_i+b)<1$
下面给出合页损失函数的定义：
$\xi_i=max\{0,1-y_i(w^Tx_i+b)\}$
同样使得：
$y_i(w^Tx_i+b)+\xi_i\ge1$
如果我们令： $y_i(w^Tx_i+b)=z$ ，那么 $f (z)$ 的图像则为：
在这里插入图片描述

从硬到软（原始问题）

由上文知，硬间隔的原始问题：
$\min_{w,b}\frac{1}{2}w^Tw\\ s.t.\quad y_i(w^Tx_i+b)\ge1,i=1,2,\cdots,n$
又由上文的分析，限制条件变更为:
$s.t.\quad y_i(w^Tx_i+b)\ge1-\xi_i,\ i=1,2,\cdots,n$
但是只这样子做，会存在一个问题，因为我们对 $\xi_i$ 所作出的犯错修正没有作出任何限制。因而，模型为了使得最小间隔尽量的大，而进行任意的犯错修正，最终导致误分类点很多。因此，我们需要对 $\xi_i$ 的修正行为，进行限制。那么很自然的，考虑到，修正行为的强度和修正值成正比，因而，我们将 $\xi_i$ 的值作为损失的角色，加入到 $\min_{w,b}\frac{1}{2}w^Tw$ 中，最终得到软间隔的原始问题：
$\min_{w,b}\frac{1}{2}w^Tw+C\sum_i^n\xi_i\\ s.t.\quad y_i(w^Tx_i+b)\ge1-\xi_i,\ i=1,2,\cdots,n$
最终，软间隔成为一方面使得 $\min\frac{1}{2}w^Tw$ ，即最小间隔最大，一方面使得 $\min C\sum_i^n\xi_i$ ，即误分类点尽量少。其中 $C$ 是调和两者的系数。

软间隔的对偶问题

其与硬间隔的对偶问题相似，就略了。

线性不可分SVM

核方法

Driving Example

考虑下面两个例子：
1.同维度映射
在这里插入图片描述
很直观的可以看出来，这对于线性SVM来说，是“十二月天找杨梅”。因此，我们只能通过某种非线性映射将样本点映射到新的空间，比如下图：

上面的映射相当于，从输入空间 $\mathbf x=(x_1,x_2)$ 通过 $\phi(\mathbf x)$ 映射到了 $\mathbf x=(x_1^2,x_2^2)$
2.高维映射
在这里插入图片描述
考虑使用如下的映射： $\phi(\mathbf x)=(x_1,x_2,(x_1-x_2)^2)$ ，得到：

从而变得线性可分。

核技巧

由上文可知，我们求解SVM的时候最后一步化简有：
$\min_{\lambda_i} \mathcal L(\lambda_i)=\frac{1}{2}\sum_i^n\sum_j^n(\lambda_i\lambda_jy_iy_j)x_i^Tx_j-\sum_i^n\lambda_i$
注意到其中有， $x_i^Tx_j$ ，这是我们需要计算的，那么如果我们进行了映射，式子就变为 $\phi(x_i)\cdot \phi(x_j),\cdot为内积$ 。这时计算它就变为，先找到映射 $\phi(x)$ ，再计算内积。那么我们是否可以找到一个函数一步达到目的呢，核技巧需要用到的核函数就诞生了。

核函数

定义

设 $\mathcal X$ 为输入空间， $\mathcal H$ 为特征空间，并且有映射：
$\phi(x):\mathcal X->\mathcal H$
而核函数满足有：
$K(x,z)=\phi(x)\cdot\phi(z) \qquad x,z\in\mathcal X$
因而上式
$\min_{\lambda_i} \mathcal L(\lambda_i)=\frac{1}{2}\sum_i^n\sum_j^n(\lambda_i\lambda_jy_iy_j)x_i^Tx_j-\sum_i^n\lambda_i$
则变为
$\min_{\lambda_i} \mathcal L(\lambda_i)=\frac{1}{2}\sum_i^n\sum_j^n(\lambda_i\lambda_jy_iy_j)K(x,z)-\sum_i^n\lambda_i$

正定核

首先明确一点说，没有特殊说明，那么核函数指的就是正定核函数。
那么满足什么条件的函数才能被称为核函数 $K (x, z)$ 呢。

希尔伯特(Hilbert space)空间

如果函数 $K (x, z)$ 是定义在 $\mathcal X \times \mathcal X$ 上的对称函数，并且对任意的 $x_1,x_2\cdots,x_m\in \mathcal X,K(x,z)$ 关于 $x_1,x_2,\cdots,x_m$ 的Gram矩阵是半正定的。那么，我们可以根据函数 $K (x, z)$ 构成一个具有内积性质的希尔伯特空间。
空间构造过程略。

正定核的充要条件

必要性：
即已知为正定核，证明其为对称函数，且Gram矩阵为半正定。

对称性：
由正定核定义可得：
$K(x,z)=\phi(x)\cdot\phi(z)$
由内积对称性：
$K(x,z)=\phi(z)\cdot\phi(x)=K(z,x)$
因此，其为对称函数。

半正定性：
对于任意 $x_1,x_2,\cdots,x_m$ ,构造 $K (x, z)$ 关于 $x_1,x_2,\cdots,x_m$ 的Gram矩阵：
$[K_{ij}]_{m\times m}=[K(x_i,x_j)]_{m\times m}$
若要证明其半正定性，那么由定义只需证明：
$对于任意\alpha\in \mathbb R^m,\alpha^T[K_{ij}]_{m\times m}\alpha\ge 0$
展开有:
$\begin{aligned}&\left [\begin{matrix} \alpha_1 \alpha_2 \cdots \alpha_m \end{matrix}\right] \left [\begin{matrix} K_{11}&K_{12}&\cdots &K_{1m}\\K_{21}&K_{22}&\cdots &K_{2m}\\ \vdots &\vdots &\vdots &\vdots \\K_{m1}&K_{m2}&\cdots&K_{mm} \end{matrix}\right] \left [\begin{matrix} \alpha_1 \\ \alpha_2 \\ \vdots \\\alpha_m \end{matrix}\right]\\ &=\sum_i^m\sum_j^m\alpha_i\alpha_jK_{ij}\\ &=\sum_i^m\sum_j^m\alpha_i\alpha_j\phi(x_i)^T\phi(x_j)\\ &=\sum_i^m\alpha_i\phi(x_i)^T\sum_j^m\alpha_j\phi(x_j)\\ &=<\sum_i^m\alpha_i\phi(x_i),\sum_j^m\alpha_j\phi(x_j)>\\ &=\vert\vert\sum_i^m\alpha_i\phi(x_i)\vert\vert^2\ge0\\ \end{aligned}$
因此是核函数则满足：1.对称性 2.Gram矩阵为半正定
充要性（待续）
在这里插入图片描述

Easofm

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
支持向量机(SupportVectorMachine)笔记

目录Prequisite分类线性可分SVM引入算法Functional/Geometric Margin间隔最大化对偶算法拉格朗日函数对偶转换对偶问题证明对偶问题的求解：Prequisite拉格朗日乘子法分类简要说一下SVM的分类：线性可分SVM线性不可分SVM1.软间隔法2.核技巧线性可分SVM引入假设给定训练集：T={(x1,y1),(x2,y2),⋯ ,(xn...
复制链接

扫一扫