手撕SVM（二）

最新推荐文章于 2020-08-19 16:59:54 发布

yougwypf1991

最新推荐文章于 2020-08-19 16:59:54 发布

阅读量204

点赞数

分类专栏：机器学习人工智能文章标签：机器学习支持向量机

本文链接：https://blog.csdn.net/kangkermit/article/details/106602402

版权

人工智能同时被 2 个专栏收录

24 篇文章 0 订阅

订阅专栏

机器学习

23 篇文章 0 订阅

订阅专栏

0 概述

在正式推导SVM之前，我们先解释一下到底什么是SVM算法。SVM 是一种二类分类模型。它的基本思想是在特征空间中寻找间隔最大的分离超平面使数据得到高效的二分类，具体来讲，有三种情况：
SVM算法解决的问题可以分为三类：

数据原本线性可分
直接使用硬间隔的方法解决
数据近似线性可分
引入松弛变量，能容忍一定程度的错误
数据线性不可分
这部分就需要使用核技巧来解决

1 SVM推导

1.1 问题描述

如下图所示，在一个多维平面上散落着正样本和负样本(我们这里画的是二维，你可以想象一下)，如果能够找到一个超平面，恰好能够将正负样本分开，那么这个超平面就可以用来对样本进行分类。
在这里插入图片描述
如图，超平面 $H_1$ 和 $H_2$ 不是我们要找的，我们要找的就是 $H_3$ 。那么问题来了，如果 $H_3$ 这种能将正负样本分开的超平面存在，那么我们如何找到它？

1.2 问题转化

我们需要将问题转化为数学的形式进行分析。如上图所示，我们使用超平面公式： $y=\omega^Tx+b$ 表示 $H_3$ 。那么任意一个样本点 $p(x_i,y_i)$ 到超平面的几何距离为： $\frac{|\omega^Tx_i+b|}{||\omega||}$ 假设 $H_3$ 就是我们想要的那个超平面，即能够将正负样本分开，那么对于任意的 $p(x_i,y_i)$ 均有： $distance(x_i,y_i)=y_i\frac{\omega^Tx_i+b}{||\omega||}\gt0$
因此有以下结论：

正样本 $y_i=1$ ，几何间隔大于0，有 $\omega^Tx_i+b\gt0$ ，即正样本均在法向量指向的一侧(正的一侧)；
负样本 $y_i=-1$ ，几何间隔小于0，有 $\omega^Tx_i+b\lt0$ ，即负样本均在法向量指向的相反一侧(负的一侧)。

这个问题等价于对于能将正负样本分开的超平面，存在以下结论： $distance(x_i,y_i)\gt0,\forall(x_i,y_i)$

可以想象，这种超平面肯定会有无数多个的，但我们希望最优的那个超平面不仅能将样本分开，且分得越开越好，即距离超平面最近的那个样本的距离最远，即最小的 $d i s t a n c e$ 最大，最小是对样本点而言的，最大是对超平面参数而言的。我们就将上述数学问题转化为最优化问题了。
进一步地，假设我们已经找到了这个最优的超平面 $H_3$ ，其参数为 $(\omega,b)$ ，并且也找到了使距离最小的样本点 $x_i,y_i)$ ，最后能够得到几何间隔： $y_i\frac{\omega^Tx_i+b}{||\omega||}$
本来我们即可对上述式子求最大化了，但是非常不巧的是，不同的超平面对应的距离最近的样本点 $x_i,y_i)$ 又不一样，那就想想办法将上式分子部分消除掉。
回顾前文描述，我们假设了参数 $(\omega,b)$ 对应的超平面是我们要找的那个，那么就有 $distance(x_i,y_i)=y_i\frac{\omega^Tx_i+b}{||\omega||}\gt0$ ，即 $y_i(\omega^Tx_i+b)\gt0$ ，那么这个最优超平面的参数 $(\omega,b)$ 经过适当的等倍缩放之后一定存在 $y_i(\omega^Tx_i+b)=1$ ，那么最小距离就变成了： $\frac{1}{||\omega||}$
最终问题变成了求解： $max_{\omega,b}\frac{1}{||\omega||},\forall y_i(\omega^Tx_i+b)\geq1$
转化一下： $min_{\omega,b}\frac{1}{2}||\omega||^2,\forall y_i(\omega^Tx_i+b)\geq1$
加上常数是为了求导方便。

1.3 拉格朗日函数求解

要求解最小化问题，最直观的想法是构建一个函数，使该函数在可行解区域内与原目标函数完全一致，而在可行解区域外的数值非常大，甚至无穷大。那么这个没有约束条件的新目标函数的优化问题就与原来有约束条件的原始目标函数的优化问题等价。这就是拉格朗日方程的目的，它将约束条件放到目标函数中，从而将有约束的优化问题转换为无约束的优化问题。
下式就是原问题转化为无约束的优化问题的公式： $\Gamma(\omega,b,\alpha)=\frac{1}{2}||\omega||^2-\sum_{i=1}^{n}\alpha_i(y_i(\omega^Tx_i+b)-1)$
其中 $\alpha_i\geq0$ 为拉格朗日乘子，是构建新目标函数时引入的系数变量。现在我们令： $\Theta(\omega)=max_{\alpha_i\geq0}\Gamma(\omega,b,\alpha)$
当样本点不满足约束条件，即在可行域外 $y_i(\omega^Tx_i+b)\lt1$ ，此时 $\alpha_i=+\infty，\Theta(\omega)=+\infty$ 。
当样本点满足约束条件时，即在可行域内 $y_i(\omega^Tx_i+b)\geq1$ ，此时 $\Theta(\omega)=\frac{1}{2}||\omega||^2$ 。
即：
$\Theta(\omega)=\begin{cases}\frac{1}{2}||\omega||^2,x\in可行域 \\ +\infty,x\in非可行域\end{cases}$
现在问题变为求解新目标函数 $\Theta(\omega)$ 的最小值：
$min_{\omega,b}\Theta(\omega)=min_{\omega}max_{\alpha_i\geq0}\Gamma(\omega,b,\alpha)=p^*$
根据朗格朗日对偶性：
$min_{\omega,b}\Theta(\omega)=max_{\alpha_i\geq0}min_{\omega}\Gamma(\omega,b,\alpha)=d^*$

1.4 对偶问题求解

求解的问题为：
$max_{\alpha_i\geq0}min_{\omega}\Gamma(\omega,b,\alpha)=d^* \\ \Gamma(\omega,b,\alpha)=\frac{1}{2}||\omega||^2-\sum_{i=1}^{n}\alpha_i(y_i(\omega^Tx_i+b)-1)$
先求里面的 $m i n$ 部分，首先固定 $\alpha$ ，分别对 $\omega,b$ 求导，并令导数为0，得到：
$\frac{\partial\Gamma}{\partial\omega}=0 \Rightarrow \omega=\sum_{i=1}^{n}\alpha_iy_ix_i \\ \frac{\partial\Gamma}{\partial b}=0 \Rightarrow \sum_{i=1}^{n}\alpha_iy_i=0$
又由 $K K T$ 条件:
$\alpha_i(y_i(\omega^Tx_i+b)-1)=0 \\ \alpha_i \geq 0$
得到要么 $\alpha_i=0$ ，要么 $y_i(\omega^Tx_i+b)-1=0$ ，但是如果 $\alpha_i=0$ ，明显不对，此时 $\omega=0$ ，还求什么解？所以一定是 $y_i(\omega^Tx_i+b)-1=0$ ，进而求得:
$\frac{1-y_j\omega^Tx_j}{y_j} \\ = \frac{1}{y_j} - \omega^Tx_j \\ = y_j - \sum_{i=1,j=1}^{n}\alpha_{i}^{T}y_ix_{i}^{T}x_j$
变换一下符号，将 $x_j,y_j$ 看作训练集的数，进一步地得到那个超平面方程：
$\sum_{i=1}^{n}\alpha_i^Ty_ix_i^Ty+1-\sum_{i=1}^n\alpha_i^Ty_ix_i^Txy=0$
$y$ 的取值是 $\pm1$ ，所以整个超平面是只依赖于输入样本和训练样本的内积的

同时将 $\omega$ 和 $b$ 的结果带回 $\Gamma(\omega,b,\alpha)$ ：
$\Gamma(\omega,b,\alpha)=\frac{1}{2}||\omega||^2-\sum_{i=1}^{n}\alpha_i(y_i(\omega^Tx_i+b)-1) \\ =\frac{1}{2}\omega^T\omega-\omega^T\sum_{i=1}^{n}\alpha_iy_ix_i - b\sum_{i=1}^{n}\alpha_iy_i + \sum_{i=1}^{n}\alpha_i \\ =\frac{1}{2}\omega^T\sum_{i=1}^{n}\alpha_iy_ix_i - \omega^T\sum_{i=1}^{n}\alpha_iy_ix_i - b\times0+\sum_{i=1}^{n}\alpha_i \\ =\sum_{i=1}^{n}\alpha_i-\frac{1}{2}\lbrace \sum_{i=1}^{n}\alpha_iy_ix_i \rbrace ^T\sum_{i=1}^{n}\alpha_iy_ix_i \\ = \sum_{i=1}^{n}\alpha_i-\frac{1}{2} \sum_{i=1,j=1}^{n}\alpha_i\alpha_jy_iy_jx_i^Tx_j$
上式中只有一个变量 $\alpha$ 了，内侧的最小值已经求解完成，我们再求外侧的最大值：
$max_{\alpha_i\geq0}\sum_{i=1}^{n}\alpha_i-\frac{1}{2} \sum_{i=1,j=1}^{n}\alpha_i\alpha_jy_iy_jx_i^Tx_j \\ s.t.\alpha\geq0,i=1,2,...,n \\ \sum_{i=1}^{n}\alpha_iy_i=0$
转化为等价问题：
$min_{\alpha_i\geq0}\frac{1}{2} \sum_{i=1,j=1}^{n}\alpha_i\alpha_jy_iy_jx_i^Tx_j - \sum_{i=1}^{n}\alpha_i \\ s.t.\alpha\geq0,i=1,2,...,n \\ \sum_{i=1}^{n}\alpha_iy_i=0$
接着我们可以使用序列最小优化（SMO）算法求得得到 $\alpha$ ，再根据 $\alpha$ ，我们就可以求解出 $\omega$ 和 $b$ ，进而求得 $H_3$ 。

感谢阅读。

如果觉得文章对你有所帮助，欢迎打赏哦～
在这里插入图片描述

yougwypf1991

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
手撕SVM（二）

0 概述在正式推导SVM之前，我们先解释一下到底什么是SVM算法。SVM 是一种二类分类模型。它的基本思想是在特征空间中寻找间隔最大的分离超平面使数据得到高效的二分类，具体来讲，有三种情况：SVM算法解决的问题可以分为三类：数据原本线性可分直接使用硬间隔的方法解决数据近似线性可分引入松弛变量，能容忍一定程度的错误数据线性不可分这部分就需要使用核技巧来解决1 SVM推导1.1 问题描述如下图所示，在一个多维平面上散落着正样本和负样本(我们这里画的是二维，你可以想象一下)，如果能够找
复制链接

扫一扫