SVM算法(Support Victor Machine,支持向量机)

一、SVM前置知识

    1) SVM的思想

    对于线性可分的数据集,我们一定可以找到多个超平面(二维是直线,三维是平面)将数据集分为两个类别,这个就是SVM算法的前身感知器模型

    SVM算法就是在感知器模型的基础上,找到一个超平面将数据集分为两类,并且使得距离超平面最近的点距离超平面最远。其实这也很好理解,距离超平面越近说明越容易被分类到其它类别中去,置信度也就越低,要想置信度大只有使得这个点距离超平面越远即可。

    这里我们把距离超平面最近的点就叫做支持向量

    2) 拉格朗日乘子法KKT条件对偶问题

    3) 函数间隔几何间隔

        函数间隔--- 对于超平面和样本点,我们定义函数间隔为:

        几何间隔--- 对于超平面和样本点,我们定义几何间隔为:

        这里要说明一点,函数间隔随着超平面的参数的变化而变化,但是几何间隔不变。也就因为这一点,我们在后面的SVM计算中才能够将几何几何间隔设置为1,在进行后续计算。

二、线性可分SVM算法推导

    这里我们首先根据SVM的思想:找到一个超平面将数据集分为两类,并且使得距离超平面最近的点距离超平面最远。因此,我们这里主要有两个要求:

    1)找到这些支持向量点

    2)找到一个超平面,使得这些点距离超平面最远

    因此,我们假设支持向量为,所求超平面的为:,则要求几何间隔最大。

    也就是使得:

    观察上式可以发现,分母为函数距离。前面我们知道,函数距离的参数值进行按比例的缩放,几何距离大小不变。

    因此,这里我们将函数距离放大缩小为1,原问题变为求解下列问题。

                                    

    也就是求解问题:           

    显然,我们发现这是一个凸优化的问题,运用拉格朗日乘子法可得拉格朗日函数为:

    

    此时的原问题为

    根据KKT条件及其对偶性,可以将原问题变为求解:

    对这个函数分别求偏导数可以得到w的值,带入超平面方程可以得到b的值。

    然后,将wb的值带入拉格朗日函数可以得到:

    此时可以看出,只要求出α值即可带入求解得到

    此时的问题变为:

    

    要求函数最大值,也就是求负函数的最小值问题:

三、线性不可分SVM算法

    我们知道,绝大多数的数据集都不是上面所说的线性可分的情况,那么在数据集线性不可分的时候我们怎么处理呢?这里我们给目标函数添加惩罚项,即目标函数变为:

                                     

    其中ξ为惩罚项因子(松弛因子),C为惩罚项系数。

    从上式我们可以推断出,当ξ一定的时候,C越大,表示对于数据点的容忍度越高,越不想放弃这个数据点,相应的决策边界也会越小。

    下面的求解过程与线性可分SVM类似,这里就不继续讲解了。

    最后我们可以得到目标函数为:

    

四、用SMO算法求解参数值α

    前面我们已经求出了非线性可分的情况下求解α的目标函数:

    下面我们用SMO算法进行求解α值。

    SMO求解思路:首先不考虑的限制条件,观察另一个限制条件,这里有多个变量我们不好同时求解。又考虑到条件限制,我们同时变化两个值,其余设为常量,这样我们可以用一个参数来表示另一个参数,将两个参数全部带入原目标函数中,可以求解得到一个参数的表达式(也可以看做参数更新的公式)。此时,我们应该考虑限制条件的问题对前面得到的参数值进行剪枝操作,选择最优的解.此时,再根据约束条件的限制,另外一个参数更新的表达式也很容易得到了。

    1) 约束条件视为一个二元函数

    SMO算法将限制条件中的多个α值的两个看做变量,其余N-2个参数看做常量值.这样根据原来的约束条件可以得到:

    2) 用α2来表示α1,将α1带入原来的目标函数,得到:

    

    求导得到:         (1)

    其中,    

    3) 考虑到要求的超平面为:,将前面求得的W和b的值全部代入超平面的函数,可以得到:

                                                    (2)

    从(2)式可以得到f(x1)和f(x2)的值,分别将这两个式子拆分消去V1和V2的值,整理得到:

                                                (3)

    其中,表示未加约束的更新值,表示前一个值,Ei表示预测值与实际值之差..

    4) 剪枝操作

    前面得到了未加约束的α2的更新公式,现在考虑约束条件的限制.由于α1+α2为定值,且均满足前面的约束条件.

     

    5) 求解α1的更新.   

    前面我们已经知道了α1+α2为定值,所以更新前后的值不变.

    即满足公式:   

    可以得到α1的表达式为:

    6) 启发式的变量选择方法.----选择违反KKT条件的α1和α2的初值进行参数更新.越违反KKT条件越好.

https://blog.csdn.net/luoshixian099/article/details/51227754

    第一个变量的选择

    第一个变量的选择称为外循环,首先遍历整个样本集,选择违反KKT条件的

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值