支持向量机

最新推荐文章于 2022-04-25 15:35:17 发布

LeonJay2012

最新推荐文章于 2022-04-25 15:35:17 发布

阅读量3.8k

点赞数

分类专栏：机器学习/数据挖掘文章标签：机器学习 SVM

本文链接：https://blog.csdn.net/sugar737/article/details/70160716

版权

支持向量机（SVM）是一种用于分类和回归的机器学习模型，尤其擅长处理小样本和高维问题。SVM通过寻找最大间隔超平面进行分类，可以处理线性和非线性问题。其核心思想包括函数间隔、几何间隔、拉格朗日对偶和核函数。在非线性场景中，核函数能够将数据映射到高维空间，实现线性可分。SVM通过软间隔处理不可分样本，引入松弛变量C来平衡错误分类。优化问题通过SMO算法求解，该算法高效地更新拉格朗日乘子。SMO算法选择拉格朗日乘子的启发式方法确保了收敛性。

摘要由CSDN通过智能技术生成

概要：

是一种二元分类模型，线性分类和非线性分类都支持。
经过演进，SVM也可以支持多元分类，同时经过扩展，也能应用于回归问题。

应用场景：

分类。

优点：

可以解决小样本情况下的机器学习问题。
可以提高泛化能力。
可以解决高维问题。
可以解决非线性问题。

缺点：

对缺失数据敏感。
对非线性问题没有通用解决方案，必须谨慎选择核函数来处理。

线性可分SVM的算法：

线性SVM的算法：

非线性SVM的算法：

SMO算法：

4 函数间隔（functionalmargin）和几何间隔（geometric margin）

给定一个训练样本，x是特征，y是结果标签。i表示第i个样本。我们定义函数间隔如下：

可想而知，当

时，在我们的g(z)定义中，

，

的值实际上就是

。反之亦然。为了使函数间隔最大（更大的信心确定该例是正例还是反例），当

时，

应该是个大正数，反之是个大负数。因此函数间隔代表了我们认为特征是正例还是反例的确信度。

继续考虑w和b，如果同时加大w和b，比如在

前面乘个系数比如2，那么所有点的函数间隔都会增大二倍，这个对求解问题来说不应该有影响，因为我们要求解的是

，同时扩大w和b对结果是无影响的。这样，我们为了限制w和b，可能需要加入归一化条件，毕竟求解的目标是确定唯一一个w和b，而不是多组线性相关的向量。这个归一化一会再考虑。

刚刚我们定义的函数间隔是针对某一个样本的，现在我们定义全局样本上的函数间隔

说白了就是在训练样本上分类正例和负例确信度最小那个函数间隔。

接下来定义几何间隔，先看图

假设我们有了B点所在的

分割面。任何其他一点，比如A到该面的距离以

表示，假设B就是A在分割面上的投影。我们知道向量BA的方向是

（分割面的梯度），单位向量是

。A点是

，所以B点是x=

（利用初中的几何知识），带入

得，

进一步得到

实际上就是点到平面距离。

再换种更加优雅的写法：

当

时，不就是函数间隔吗？是的，前面提到的函数间隔归一化结果就是几何间隔。他们为什么会一样呢？因为函数间隔是我们定义的，在定义的时候就有几何间隔的色彩。同样，同时扩大w和b，w扩大几倍，

就扩大几倍，结果无影响。同样定义全局的几何间隔

5 最优间隔分类器（optimal marginclassifier）

回想前面我们提到我们的目标是寻找一个超平面，使得离超平面比较近的点能有更大的间距。也就是我们不考虑所有的点都必须远离超平面，我们关心求得的超平面能够让所有点中离它最近的点具有最大间距。形象的说，我们将上面的图看作是一张纸，我们要找一条折线，按照这条折线折叠后，离折线最近的点的间距比其他折线都要大。形式化表示为：

这里用

=1规约w，使得

是几何间隔。

到此，我们已经将模型定义出来了。如果求得了w和b，那么来一个特征x，我们就能够分类了，称为最优间隔分类器。接下的问题就是如何求解w和b的问题了。

由于

不是凸函数，我们想先处理转化一下，考虑几何间隔和函数间隔的关系，

，我们改写一下上面的式子：

这时候其实我们求的最大值仍然是几何间隔，只不过此时的w不受

的约束了。然而这个时候目标函数仍然不是凸函数，没法直接代入优化软件里计算。我们还要改写。前面说到同时扩大w和b对结果没有影响，但我们最后要求的仍然是w和b的确定值，不是他们的一组倍数值，因此，我们需要对

做一些限制，以保证我们解是唯一的。这里为了简便我们取

。这样的意义是将全局的函数间隔定义为1，也即是将离超平面最近的点的距离定义为

。由于求