SVM算法（Support Victor Machine，支持向量机）

最新推荐文章于 2024-05-21 15:39:00 发布

笨拙的石头

最新推荐文章于 2024-05-21 15:39:00 发布

阅读量2.1k

点赞数 1

分类专栏：机器学习文章标签： SVM 机器学习分类算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_32241189/article/details/79881782

版权

一、SVM前置知识

1） SVM的思想

对于线性可分的数据集，我们一定可以找到多个超平面（二维是直线，三维是平面）将数据集分为两个类别，这个就是SVM算法的前身感知器模型。

SVM算法就是在感知器模型的基础上，找到一个超平面将数据集分为两类，并且使得距离超平面最近的点距离超平面最远。其实这也很好理解，距离超平面越近说明越容易被分类到其它类别中去，置信度也就越低，要想置信度大只有使得这个点距离超平面越远即可。

这里我们把距离超平面最近的点就叫做支持向量。

2）拉格朗日乘子法和KKT条件（对偶问题）

3） 函数间隔和几何间隔

函数间隔--- 对于超平面和样本点,我们定义函数间隔为：

几何间隔--- 对于超平面和样本点,我们定义几何间隔为：

这里要说明一点，函数间隔随着超平面的参数的变化而变化，但是几何间隔不变。也就因为这一点，我们在后面的SVM计算中才能够将几何几何间隔设置为1，在进行后续计算。

二、线性可分SVM算法推导

这里我们首先根据SVM的思想：找到一个超平面将数据集分为两类，并且使得距离超平面最近的点距离超平面最远。因此，我们这里主要有两个要求：

1）找到这些支持向量点

2）找到一个超平面，使得这些点距离超平面最远

因此，我们假设支持向量为，所求超平面的为：，则要求几何间隔最大。

也就是使得：。

观察上式可以发现，分母为函数距离。前面我们知道，函数距离的参数值进行按比例的缩放，几何距离大小不变。

因此，这里我们将函数距离放大缩小为1，原问题变为求解下列问题。

也就是求解问题：

显然，我们发现这是一个凸优化的问题，运用拉格朗日乘子法可得拉格朗日函数为：

此时的原问题为。

根据KKT条件及其对偶性，可以将原问题变为求解：

对这个函数分别求偏导数可以得到w的值，带入超平面方程可以得到b的值。

然后，将w和b的值带入拉格朗日函数可以得到：

此时可以看出，只要求出α值即可带入求解得到。

此时的问题变为：

要求函数最大值，也就是求负函数的最小值问题：

三、线性不可分SVM算法

我们知道，绝大多数的数据集都不是上面所说的线性可分的情况，那么在数据集线性不可分的时候我们怎么处理呢？这里我们给目标函数添加惩罚项，即目标函数变为:

其中ξ为惩罚项因子（松弛因子）,C为惩罚项系数。

从上式我们可以推断出，当ξ一定的时候，C越大，表示对于数据点的容忍度越高，越不想放弃这个数据点，相应的决策边界也会越小。

下面的求解过程与线性可分SVM类似，这里就不继续讲解了。

最后我们可以得到目标函数为：

四、用SMO算法求解参数值α

前面我们已经求出了非线性可分的情况下求解α的目标函数：

下面我们用SMO算法进行求解α值。

SMO求解思路：首先不考虑的限制条件，观察另一个限制条件，这里有多个变量我们不好同时求解。又考虑到条件限制，我们同时变化两个值，其余设为常量，这样我们可以用一个参数来表示另一个参数，将两个参数全部带入原目标函数中，可以求解得到一个参数的表达式（也可以看做参数更新的公式）。此时,我们应该考虑限制条件的问题对前面得到的参数值进行剪枝操作,选择最优的解.此时,再根据约束条件的限制,另外一个参数更新的表达式也很容易得到了。

1) 约束条件视为一个二元函数

SMO算法将限制条件中的多个α值的两个看做变量,其余N-2个参数看做常量值.这样根据原来的约束条件可以得到:

2) 用α2来表示α1,将α1带入原来的目标函数,得到:

求导得到: (1)

其中,

3) 考虑到要求的超平面为:,将前面求得的W和b的值全部代入超平面的函数,可以得到:

(2)

从(2)式可以得到f(x1)和f(x2)的值,分别将这两个式子拆分消去V1和V2的值,整理得到:

(3)

其中,表示未加约束的更新值,表示前一个值,Ei表示预测值与实际值之差..

4) 剪枝操作

前面得到了未加约束的α2的更新公式,现在考虑约束条件的限制.由于α1+α2为定值,且均满足前面的约束条件.

5) 求解α1的更新.

前面我们已经知道了α1+α2为定值,所以更新前后的值不变.

即满足公式:

可以得到α1的表达式为:

6) 启发式的变量选择方法.----选择违反KKT条件的α1和α2的初值进行参数更新.越违反KKT条件越好.

https://blog.csdn.net/luoshixian099/article/details/51227754

第一个变量的选择

第一个变量的选择称为外循环，首先遍历整个样本集，选择违反KKT条件的

最低0.47元/天解锁文章

笨拙的石头

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
SVM算法（Support Victor Machine，支持向量机）

一、SVM前置知识 1） SVM的思想对于线性可分的数据集，我们一定可以找到多个超平面（二维是直线，三维是平面）将数据集分为两个类别，这个就是SVM算法的前身感知器模型。 SVM算法就是在感知器模型的基础上，找到一个超平面将数据集分为两类，并且使得距离超平面最近的点距离超平面最远。其实这也很好理解，距离超平面越近说明越容易被分类到其它类别中去，置信度也就越低，要想置信度大只有使...
复制链接

扫一扫

专栏目录

笨拙的石头 CSDN认证博客专家 CSDN认证企业博客

码龄9年

25: 原创

52万+: 周排名

220万+: 总排名

53万+: 访问

: 等级

2118: 积分

757: 粉丝

670: 获赞

57: 评论

4568: 收藏

私信

关注

分类专栏

最新评论

深度学习之RNN(循环神经网络)
kaiwen 陈: 有点小错误，不是w倍的s3对s2*s2对w，就是s3对s2*s2对w，只是s3对s2是w而已。这点要注意。
深度学习之RNN(循环神经网络)
kaiwen 陈: 注意到s3是w*s2的函数，而s2也是w的函数，即s3=w*s2(w).所以s3对w求导要分两步，按照乘积的求导公式y=v(x)*u（x）,y对x求导为v*u|+u*v|，所以s3对w求导的结果为s3对w求（此时s2看作常数）加上w倍的s3对s2*s2对w（链式求导法则）。所以最终的结果就是偏s3+/偏w+偏s3/s2*偏s2/w.
深度学习之RNN(循环神经网络)
S_PIa: 隐藏状态可以理解为: S=f(现有的输入+过去记忆总结) ,这里的S是哪个h吧
深度学习之RNN(循环神经网络)
弔仁: 最好理解为每一层都是共享的
深度学习之RNN(循环神经网络)
Heyyy_: 感谢博主！中间有个BP算法的网址好像错了，打不开

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。