多分类svm对偶化核化法代码_机器学习技法2-（对偶SVM）

最新推荐文章于 2024-04-29 19:49:11 发布

扒婆

最新推荐文章于 2024-04-29 19:49:11 发布

阅读量193

点赞数

文章标签：多分类svm对偶化核化法代码

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36326243/article/details/113578916

版权

一.对偶问题的动机

非线性SVM的思路：

非线性SVM是最大间隔和特征转换的结合体，通过最大间隔得到低的VC维，从而降低模型复杂度，通过特征转换

equation?tex=Z%3D%5CPhi%28x_%7Bn%7D%29

替换原来的特征空间,得到的特征空间为

equation?tex=%5Ctilde%7Bd%7D

，下图是采用QP计算工具计算的流程，共有

equation?tex=%5Ctilde%7Bd%7D%2B1

个变量和N个线性限制条件，当

equation?tex=%5Ctilde%7Bd%7D

越大，这个QP问题就越难计算。

对于

equation?tex=%5Ctilde%7Bd%7D

非常大，甚至是无穷大，也就是无穷维度的特征空间，这是QP问题很难解，那么该怎么办？解决的办法是让SVM的求解与

equation?tex=%5Ctilde%7Bd%7D

没有关系。

我们的目标是让求解SVM的过程与

equation?tex=%5Ctilde%7Bd%7D

无关。

上述中的‘Equivalent’ SVM实际上是原始SVM的对偶问题(dual problem )，该对偶问题的求解与

equation?tex=%5Ctilde%7Bd%7D

无关，只与样本个数N有关。

二.SVM的对偶问题

解决的方法思想——拉格朗日乘子法

在推导正则化的时候，我们也引入了该方法，该方法针对有限制条件的最优化问题，通过该方法可以把限制条件转入目标函数中。

在正则化的推导的过程中，我们的拉格朗日乘子

equation?tex=%5Clambda

是已知的，是由我们定的。在SVM的对偶问题中，这些拉格朗日乘子

equation?tex=%5Clambda%5E%7B%27%7D

是未知的，是需要我们求解的参数，个数为N（对应限制条件的个数）。

在SVM的文献中，拉格朗日乘子一般用

equation?tex=%5Calpha

表示，对线性SVM列拉格朗日函数则有：

equation?tex=%5Calpha%5Cgeq0

，现在已经将限制条件加到目标函数中了，那么限制条件怎么实现呢？将限制条件隐藏在最大值函数中，推导：

对于一个满足定义域

equation?tex=%5Calpha_%7Bn%7D%5Cgeq0

的固定的

equation?tex=%5Calpha%5E%7B%27%7D

有：

解释：函数L的最大值，即使做了最小化也是大于或等于该函数的最小值的。

对满足定义域

equation?tex=%5Calpha_%7Bn%7D%5Cgeq0

的任意一个固定的

equation?tex=%5Calpha%5E%7B%27%7D

都满足上式，则有：

这称为原来问题的对偶问题，由于采用了拉格朗日乘数法，因此称为拉格朗日对偶问题，通过这个对偶问题可以求出原来问题的下限。

如果是

equation?tex=%5Cgeq

则为弱对偶问题，如果是

equation?tex=%3D

则为强对偶问题。

对于满足强对偶问题的拉格朗日对偶问题，当满足下面条件时候可用QP计算：

凸函数
通过特征变换为高维空间是线性可分
条件是线性条件

因此这是一个强对偶，故优化目标为：

现在对内部min做优化，则需要对b和w求导，现先对b求导，则有：

因此可用将该条件作为上述优化目标的条件，同时也消除了b：

命名下式子为（H）

然后对w求导（仍然在对min做优化）:

将其代入（H）得到：

由于w和b被函

equation?tex=X_%7Bn%7D

和

equation?tex=Z_%7Bn%7D

替换了，因此可用把min符号去掉。

最后给出求解上述优化问题需要满足的必要条件，也就是KKT条件：

三.解对偶问题

经过上节课的推导，最终可得到对偶SVM的标准形式：

这时可以采用QP求解了，因为求解的变量个数只与N相关了。

但是Q矩阵会很大，这导致该QP问题难解，因为当有N=30000个样本时，Q的维度为30000×30000，非常耗费存储导致计算非常慢。

因此在在求解对偶SVM时，需要做特殊的解法：

不存储Q
采用特殊的限制条件

得到的最优化结果为(b,W)。

可以容易的计算出w。

b的计算，假设

equation?tex=%5Calpha_%7Bn%7D+

大于0，那么

equation?tex=b+%3D+y_%7Bn%7D-w%5E%7B%5Ctop%7Dz_%7Bn%7D

，可以发现该点在最大间隔的边界上，也就是支撑向量。

四.对偶SVM背后的信息

在支持向量机中，有两种样本点，把在最大间隔边界上的点称为边界点support vectors候选点，也称为，在边界外的点对于分析最大间隔没有用。在边界上的点，如果

equation?tex=%5Calpha_%7Bn%7D+

大于0，那么该点为support vectors，如果

equation?tex=%5Calpha_%7Bn%7D+

，那么该点只是在边界上，但不是support vectors。

通过一个练习理解这里的定义：

在解支持向量机的对偶问题的时候，只需要support vectors，也就是说学得最大间隔分离面只需要通过找出对偶问题的support vectors。

在SVM中，w是通过求解对偶问题得到的，在PLA中是通过纠错得到w。

可以看出SVM和PLA的w都有

equation?tex=y_%7Bn%7Dz_%7Bn%7D

的线性组合，这说明了w是被样本点求出来的，其中SVM由support vectors求出的，而PLA的w是由发生错误的样本点求出来的。

线性SVM与对偶SVM的比较：

在线性SVM中，求解出最佳的b和w与所在的特征空间的维度数量有关，适合于特征空间维度低的情况下；在对偶SVM中，求解出的b和w与样本集的规模N有关，适合于N不大的情况下，在对偶SVM中，引入了特征转换可以对非线性数据集进行分类，求解的最佳b和w只与support vectors有关。

引入SVM的对偶问题是为了让SVM能做非线性分类，我们希望SVM能对很复杂的非线性问题都能够实现分类，因此在特征转换的时候特征空间可能会很大，一种极端的情况是特征空间维度

equation?tex=%5Ctilde%7Bd%7D

为无穷大，但是这时计算机无法计算，因此引入了对偶问题来使得求解过程与

equation?tex=%5Ctilde%7Bd%7D

无关，但是在上述的对偶问题中，我们得到的b和w的计算虽然表面上与

equation?tex=%5Ctilde%7Bd%7D

无关，本质上却仍然与

equation?tex=%5Ctilde%7Bd%7D

有关，不过是隐藏起来了。

那么该怎么完全避免计算

equation?tex=%5Ctilde%7Bd%7D

呢？（下节课）

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
多分类svm对偶化核化法代码_机器学习技法2-（对偶SVM）

一.对偶问题的动机非线性SVM的思路：非线性SVM是最大间隔和特征转换的结合体，通过最大间隔得到低的VC维，从而降低模型复杂度，通过特征转换替换原来的特征空间,得到的特征空间为，下图是采用QP计算工具计算的流程，共有个变量和N个线性限制条件，当越大，这个QP问题就越难计算。对于非常大，甚至是无穷大，也就是无穷维度的特征空间，这是QP问题很难解，那么该怎么办？解决的办法是让SVM的求...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。