一文读读懂SVM推导全过程

最新推荐文章于 2024-08-08 16:43:27 发布

天天撸代码

最新推荐文章于 2024-08-08 16:43:27 发布

阅读量6k

点赞数 3

文章标签：神经网络机器学习算法 svm 深度学习

本文链接：https://blog.csdn.net/u012033832/article/details/78519422

版权

曾经叱咤风云的SVM算法，现如今虽然随着深度学习的崛起热度有所下降，但是仍然有许多的人在对他进行着研究学习和应用，曾经我也查看了许多的资料对它进行研究，但是很多文章写的都是不清不楚，具体的细节也存在不少问题，作为过来人，深刻体会到推导过程一定要写的细致且明白才好。

支持向量机的概念：给定线性可分的训练数据集，通过间隔最大化或等价地求解相应的凸二次规划问题学习得到分离超平面为：

以及分类决策函数 $f(x)=sign(w^{T}*x+b)$

称为线性可分支持向量机

假设在超平面w.x+b=0确定的情况下,|w.x+b|能够相对地表示点x距离超平面的远近，而w.x+b的符号与类标记y的符号是否一致能够表示分类是否正确，所以可用量y（w.x+b）来表示分类的正确性及确信度，这就是函数间隔，函数间隔说的更通俗点就是人为定义的一个间隔只是能用来表示所有点距离超平面的一个距离的定义罢了。你也可以用其他的一个定义来表示都是可以的。

函数间隔： $\gamma _{i}=y_{i}*(w^{T}*x+b)$

我们的目的就是要求得函数间隔的最小值，即 $\hat{\gamma}=Min \gamma_{i}$

但是我们只有函数间隔是不够的，因为函数间隔是一种理论上的相对距离，当我们成比例的改变w和b的值的时候， $\gamma_{i}$ 则也会变化变成原来的四倍。所以就有了后面的几何间隔的定义。

根据平面几何的知识：

其中||w||为w的二阶范数（范数是一个类似于模的表示长度的概念），是单位向量

又由于 x0 是超平面上的点，满足 f(x0)=0 ，代入超平面的方程，可得，即.

随即让此式的两边同时乘以，再根据和，即可算出：

为了得到的绝对值，令乘上对应的类别 y，即可得出几何间隔（用表示）的定义

从上述函数间隔和几何间隔的定义可以看出：几何间隔就是函数间隔除以||w||，而且函数间隔y*(wx+b) = y*f(x)实际上就是|f(x)|，只是人为定义的一个间隔度量，而几何间隔|f(x)|/||w||才是直观上的点到超平面的距离。

最大间隔分离超平面

我们的目标就是如何求得一个几何间隔最大的分离超平面，具体的这个问题可以表示为下面的约束最优化问题：max $\tilde{\gamma }$

s.t $y_{i}(\frac{w*x_{i}+b}{||w||})>=\tilde{\gamma}$

其中 $\tilde{\gamma }$ 为上面得到的最小几何距离。

用函数间隔表示的话即为：

max $\hat{\gamma}$

s.t $y_{i}(\frac{w*x_{i}+b}{||w||})>=\hat{\gamma}$

其中 $\hat{\gamma}$ 为上面得到的最小函数距离。

事实上将w和b按比例改变为xw和xb以后，这时函数间隔为x $\hat{\gamma}$ ，但是几何距离仍然为 $\tilde{\gamma }$ ，也就是说函数间隔大小的改变不会影响对目标函数的优化，对最终的结果是没有影响的，所以我们在这里可以取 $\tilde{\gamma }$ =1，将 $\tilde{\gamma }$ =1带入上面最优化问题，最大化 $\frac{1}{\left \| w \right \|}$ 和最小化 $\frac{1}{2}{\left \| w \right \|}^{2}$ 是等价的，这样做的目的是为了方便后面的求导等求解过程。

所以最终我们的优化问题就变成了：

Min $\frac{1}{2}{\left \| w \right \|}^{2}$

s.t $y_{i}(w*x_{i}+b)-1>=0$

最终就变成了一个凸优化问题。

最终优化得到的结果就是得到一个分隔超平面 w.x+b=0

对 $y_{i}$ =+1的正例点，支持向量在超平面 w.x+b=1上面

对 $y_{i}$ =-1的负例点，支持向量在超平面 w.x+b=-1上面

用对偶算法求解上述凸优化问题

先介绍一下什么是kkt条件，首先kkt是一个人名（大佬原名叫：Karush-Kuhn-Tucker ），之前我一直纳闷为啥叫kkt，

假设有一个优化问题：

Min f(x)

subject to: $g_{i}(x)$ <=0 ， $h_{j}(x)$ =0.

上面的优化问题等价于：

Min $f(x)+\sum_{i=1}^{m}\mu _{i}g_{i}(x)+\sum_{j=1}^{l}\lambda _{j}h_{j}(x)$

Subject to：

$\mu _{i}g_{i}(x)=0$

$\mu _{i}>=0$ for i=1,2,3……N

目标函数没啥可说的，跟拉格朗日最优化是一个意思。最后的两个条件是怎么来的呢，

因为 $h_{j}(x)$ =0，所以 $\lambda _{j}$ 的大小我们不关心，第一个条件是因为 $g_{i}(x)$ 有的为0有的小于等于0，对于 $g_{i}(x)$ 为0的项 $\mu_{i}$ 的大小我们不关心，而对于 $g_{i}(x)$ 小于0的项我们希望 $\mu_{i}$ 的大小为0，这样的话原目标函数的优化相当于没有发生改变。