手推支持向量机SVM——Ⅰ

最新推荐文章于 2022-12-27 19:21:11 发布

行者无疆_ty

最新推荐文章于 2022-12-27 19:21:11 发布

阅读量255

点赞数 1

分类专栏：人工智能文章标签： svm 支持向量机机器学习

本文链接：https://blog.csdn.net/a321123b/article/details/114977508

版权

人工智能专栏收录该内容

34 篇文章 27 订阅

订阅专栏

本文介绍了支持向量机（SVM）的原理，特别是硬间隔SVM（Hard-margin SVM）。SVM寻找能最大化两类样本间距离的超平面，目标是最小化错误率并最大化间隔。通过拉格朗日乘子法和KKT条件，SVM的原问题转换为对偶问题，简化了高维空间中的求解过程。

摘要由CSDN通过智能技术生成

支持向量机的原理

首先，我们要知道，SVM是一个二分类模型，当然我们能够用它实现多分类，但一个SVM本质上就只是一个二分类模型，它的原理就是找到一个超平面（在二维中就是一条直线）既能有效区分两个类别又能使得两个类别到该超平面的几何距离最大。
什么意思呢，看下面的图：
在这里插入图片描述

该图中有很明显的两个类别，能够区分开这两个类别的直线有很多条（图中的三条直线都可以），SVM要做的就是找到离两个类别的距离最远的那一条，即图中的红色直线。
目前共有三种SVM算法：

Hard-margin SVM 硬间隔SVM
Soft-margin SVM 软间隔SVM
Kernel SVM 带核函数的SVM

下面就一一进行讲解。

Hard-margin SVM

我们通常说的SVM都指的是Hard-margin SVM，其中的hard表示的是不允许误差，这是有别于sotf-margin的一点，后面再详细讲解。
首先，我们将SVM分类器定义为：
$\begin{cases}w^{T}x_{i}+b >0,y_{i}=1\\ w^{T}x_{i}+b <0,y_{i}=-1\end{cases}$
其中， $w^{T}x_{i}+b$ 为我们找到的直线，则直线上方为正类即 $y_{i}=1$ ，直线下方为负类即 $y_{i}=-1$ 。
不难看出上式等价于：
$y_{i}(w^{T}x_{i}+b) >0$
样本中的点到直线的最小距离为：
$margin=min\ distance(w,b,x_{i})$
代入点到直线的距离公式，得：
$margin=min\ \frac{1}{||w||_{2}}\bullet |w^{T}x_{i}+b|$
其中 $w||_{2}$ 为L2范数。
$||w||_{2}=\sqrt{w_{1}^{2}+w_{2}^{2}+...+w_{n}^{2}}$
然后hard-margin SVM的目标就是使该最小距离最大化，即：
$\begin{cases}max \ min\ \frac{1}{||w||_{2}}\bullet |w^{T}x_{i}+b|\\ y_{i}(w^{T}x_{i}+b) >0\end{cases}$
由 $y_{i}\in \begin{Bmatrix}-1,1 \end{Bmatrix}$ 且与 $w^{T}x_{i}+b$ 同号，因此我们可以去掉绝对值符号。得：
$\begin{cases}max \ min\ \frac{1}{||w||_{2}}\bullet y_{i}(w^{T}x_{i}+b)\\ y_{i}(w^{T}x_{i}+b) >0\end{cases}$
将常数项提出来，得：
$\begin{cases}max \frac{1}{||w||_{2}}\ min\ y_{i}(w^{T}x_{i}+b)\\ y_{i}(w^{T}x_{i}+b) >0\end{cases}$
由 $y_{i}(w^{T}x_{i}+b) >0$ 可知，一定存在 $r > 1$ ，使得 $min\ y_{i}(w^{T}x_{i}+b)=r$ ，令 $r = 1$ ，则上式变为：
$\begin{cases}max \frac{1}{||w||_{2}}\ \\ min\ y_{i}(w^{T}x_{i}+b)=1\end{cases}$
=> $\begin{cases}max \frac{1}{||w||_{2}}\ \\ min\ y_{i}(w^{T}x_{i}+b)=1\end{cases}$
将max问题转换为min问题：
$\begin{cases}min \frac{1}{2}w^{T}w\ \\ \ y_{i}(w^{T}x_{i}+b)\geqslant 1 \ \ ,i=1,2,...N\end{cases}$
解释一下最后一步，这里的 $min||w||_{2}=min \ w^{T}w$ 应该不难理解，主要是这个 $\frac{1}{2}$ 怎么来的，其一是因为乘一个常数项并不影响求最优值，其二是为了方便后面的求导运算。
于是我们就得到了带N个约束条件的求二次函数的最值问题或者说是凸函数的优化问题了，上面标红的公式就是大名鼎鼎的SVM的原问题了。
容易看出，原问题的求解与特征的维数有关，当特征维数较高时我们很难进行求解，因此我们将其转换为对偶问题。
首先，通过构造拉格朗日函数将约束条件消除。原问题中的约束条件可以写成：
$1-y_{i}(w^{T}x_{i}+b) \leqslant 0$
然后，构造拉格朗日函数：
$L(w,b,\lambda)= \frac{1}{2}w^{T}w + \sum_{i=1}^{N}\lambda _{i}[1-y_{i}(w^{T}x_{i}+b)]$
其中， $\lambda$ 为拉格朗日系数，且 $\lambda _{i}\geqslant 0$ ， $1-y_{i}(w^{T}x_{i}+b) \leqslant 0$
则，原问题 $\frac{1}{2}w^{T}w$ 可以转换为 $\ L(w,b,\lambda)]$ ,why?
从两个方面来看：
①在可行解区域内，满足 $1-y_{i}(w^{T}x_{i}+b) \leqslant 0$ ，即 $\ L(w,b,\lambda)=\frac{1}{2}w^{T}w$ ，因为 $L(w,b,\lambda)$ 第二部分的最大值为0；
②在可行解区域外，即 $1-y_{i}(w^{T}x_{i}+b) > 0$ 且 $\lambda _{i}\geqslant 0$ ，则 $\ L(w,b,\lambda)= + \infty$ ，无解，而原问题同样在可行解区域外。
结合①②可知， $\frac{1}{2}w^{T}w$ 等价于 $\ L(w,b,\lambda)]$ ，从而，带约束的原问题转换成了无约束的：
$\left\{\begin{matrix}min \ max \ L(w,b,\lambda ) & \\ \lambda _{i}\geqslant 0& \end{matrix}\right.$
然后，我们来说一下什么是对偶性。

弱对偶性： $\ max \ f(x) \geqslant max\ min\ f(x)$
强对偶性： $\ max \ f(x) = max\ min\ f(x)$

在SVM中，满足强对偶性的充要条件是满足KKT条件，如下：
$\left\{\begin{matrix}\frac{\partial L}{\partial b}=0,\frac{\partial L}{\partial w}=0,\frac{\partial L}{\partial \lambda}=0 \\ \lambda_{i}(1-y_{i}(w^{T}x_{i}+b))=0 \\ 1-y_{i}(w^{T}x_{i}+b)\leqslant 0 \\ \lambda _{i}\geqslant 0 \end{matrix}\right.$
其中， $\lambda_{i}(1-y_{i}(w^{T}x_{i}+b))=0$ 称为松弛互补条件。
当满足KKT条件后，我们就可以把原问题转换为对偶问题了，即：
$\left\{\begin{matrix}min \ max \ L(w,b,\lambda ) & \\ \lambda _{i}\geqslant 0& \end{matrix}\right.=\left\{\begin{matrix}max\ min\ L(w,b,\lambda ) & \\ \lambda _{i}\geqslant 0& \end{matrix}\right.$
下面我们来求 $\ L(w,b,\lambda)$ 。
由
$\frac{\partial L}{\partial b}=0 \ \Rightarrow -\sum_{i=1}^{N}\lambda _{i}y_{i}=0 \ \Rightarrow \sum_{i=1}^{N}\lambda _{i}y_{i}=0$
展开 $L(w,b,\lambda)$ :
$L(w,b,\lambda)= \frac{1}{2}w^{T}w + \sum_{i=1}^{N}\lambda _{i}-\sum_{i=1}^{N}\lambda _{i}y_{i}w^{T}x_{i}-b \sum_{i=1}^{N}\lambda _{i}y_{i}\textup{}$
=>
$L(w,b,\lambda)= \frac{1}{2}w^{T}w + \sum_{i=1}^{N}\lambda _{i}-\sum_{i=1}^{N}\lambda _{i}y_{i}w^{T}x_{i}$
由 $\frac{\partial L}{\partial w}=0 \ \Rightarrow \frac{1}{2}*2*w-\sum_{i=1}^{N}\lambda _{i}y_{i}x_{i}=0$ ,可得：
$w=\sum_{i=1}^{N}\lambda _{i}y_{i}x_{i}$
代入 $L(w,b,\lambda)$ ，得：
$L(w,b,\lambda)=\frac{1}{2}(\sum_{i=1}^{N}\lambda _{i}y_{i}x_{i})^{T}(\sum_{i=1}^{N}\lambda _{i}y_{i}x_{i})+\sum_{i=1}^{N}\lambda _{i}-(\sum_{i=1}^{N}\lambda _{i}y_{i}x_{i})^{T}(\sum_{i=1}^{N}\lambda _{i}y_{i}x_{i})$
=>
$L(w,b,\lambda)=\sum_{i=1}^{N}\lambda _{i}-\frac{1}{2}(\sum_{i=1}^{N}\lambda _{i}y_{i}x_{i})^{T}(\sum_{i=1}^{N}\lambda _{i}y_{i}x_{i})$
=>
$L(w,b,\lambda)=\sum_{i=1}^{N}\lambda _{i}-\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\lambda _{i}\lambda _{j}y_{i}y_{j}x_{i}^{T}x_{j}$
则 $\left\{\begin{matrix}max\ min\ L(w,b,\lambda ) & \\ \lambda _{i}\geqslant 0& \end{matrix}\right.$
转为了：
$\left\{\begin{matrix}max\ \sum_{i=1}^{N}\lambda _{i}-\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\lambda _{i}\lambda _{j}y_{i}y_{j}x_{i}^{T}x_{j} & \\ \lambda _{i}\geqslant 0& \end{matrix}\right.$
将max问题转为min问题：
$\left\{\begin{matrix}min\ \frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\lambda _{i}\lambda _{j}y_{i}y_{j}x_{i}^{T}x_{j}-\sum_{i=1}^{N}\lambda _{i} & \\ \lambda _{i}\geqslant 0& \end{matrix}\right.$
容易看出，该优化问题只与数据量有关，这就是大名鼎鼎的SVM的对偶问题。
最后，就是如何求解最优的 $w^{*}$ 和 $b^{*}$ ：
①由 $\frac{\partial L}{\partial w}=0$ ,可得： $w^{*}=\sum_{i=1}^{N}\lambda _{i}y_{i}x_{i}$ ；
②由松弛互补条件，当 $\lambda _{i}=0$ 时无法求出 $b^{*}$ ，因此令 $1-y_{i}(w^{T}x_{i})=0$ ,即
$y_{i}(w^{T}x_{i})=1$
由于 $y_{i}=\begin{Bmatrix}-1,1 \end{Bmatrix}$ ，两边同乘 $y_{i}$ ，得：
$w^{T}x_{i}+b=y_{i}\Rightarrow b^*=y_{i}-w^{T}x_{i}$
将 $w^{*}$ 代入，得：
$b^{*}=y_{i}-(\sum_{i=1}^{N}\lambda_{i}x_{i}y_{i})^{T}x_{i}=y_{i}-\sum_{i=1}^{N}\sum_{k=1}^{N}\lambda_{k}y_{k}x_{k}^{T}x_{i}$
最终找到的SVM表达式为： $f(x)=sign(w^{*^{T}}x+b^{*})$ 。
最终找到的最优超平面为： $w^{*^{T}}x+b^{*}$ 。
最后，为坚持看到这里的你鼓个掌。