SVM简介及简单推导

(1)最优超平面的定义:一个超平面,如果它能够将训练样本正确地分开,并且两类训练样本中离超平面最近的样本与超平面之间的距离最大,则这个超平面被称作最优超平面。其中,样本中离分类面最近的样本到分类超平面的距离被称作分类间隔。

(2)对于超平面H:g(x)=wx+b=0。求取任意点x到该平面的距离:将该点表示成向量x,则有x=x'+r*w/||w||。式中x'是x在H上的投影向量;r是x到H的垂直距离,w/||w||是w的单位向量。则有g(x)=wx+b=w(x'+r*w/||w||)+b=wx'+b+r*w^{T}*w/||w||=0+r*w^{T}*w/||w||=r*||w||。所以,r=|g(x)|\||w||。

线性可分支持向量机

在线性可分的情况下,我们的目的是得到一个超平面g(x)=wx+b=0,使得所有样本都能正确可分。我们知道

(1)对于给定的训练数据集T和超平面wx+b=0,我们设超平面对于任意的样本点(x_{i},y_{i})的函数间隔为\hat{r_{i}}=y_{i}*(wx_{i}+b)。并且,我们认为超平面对于训练集的函数间隔是:所有样本函数间隔的最小值,即\hat{r} = min\{\hat{r_{i}}\}=min\{ y_{i}*(wx_{i}+b) \}

(2)函数间隔可以用来表示分类预测的正确性和确信度。但是,当超平面不变时(λ*wx+λb=0),w和b同时放缩λ倍,会导致函数间隔放缩λ倍。因此,我们需要对分离超平面的法向量w进行规范化,使得间隔可以确定,这就是我们引入的几何间隔。设样本点(x_{i},y_{i})的几何间隔为:r_{i}=y_{i}*(\frac{w}{||w||}x_{i}+\frac{b}{||w||}),则样本集的几何间隔为:r=min\{r_{i}\}=min\{y_{i}*(\frac{w}{||w||}x_{i}+\frac{b}{||w||})\}

根据超平面的定义,我们可知,求取支持向量机的目的就是在几何间隔中得到以下w和b:

                                                                        \begin{Bmatrix} max &r \\ s.t.& y_{i}*\(\frac{w}{||w||}x_{i}+\(\frac{b}{||w||})) \geqslant r,i=1,2,3,4...\\ \end{matrix}

同理,推广到函数间隔中,可以得到:

                                                                        \begin{Bmatrix} max &\quad {}\frac{\hat{r}}{||w||} \\ s.t.& y_{i}*\(x_{i}+b) \geqslant \hat{r}},i=1,2,3,4...\\ \end{matrix}

(3)\hat_{r}来自于\hat{r_{i}}=y_{i}*(wx_{i}+b),所以它的变化对最优解问题的不等式约束没有影响(因为其他样本点构造的\hat_{r_{i}}同样放缩),对目标函数的优化(求取max)也没有影响。为了简单方便,我们令1=\hat_{r},则有等价问题:

                                                                       \begin{Bmatrix} max &\quad {}\frac{1}{||w||} \\ s.t.& y_{i}*\(x_{i}+b) \geqslant \1,i=1,2,3,4...\\ \end{matrix}

并且可以将其转化为:

                                                                       \begin{Bmatrix} min &\quad {}\frac{||w||^{2}}{2} \\ s.t.& y_{i}*\(x_{i}+b)-1 \geqslant \0,i=1,2,3,4...\\ \end{matrix}

(4)使用对偶性质解决问题时,一方面可以使原始问题更容易求解;另一方面对偶问题引入了核函数,可以推广到非线性分类的问题上。将上述原始问题转换为对偶问题步骤为:

  ①对每一个不等式约束引入拉格朗日乘子\alpha_{i}\geqslant 0,\quad i=1,2,3,4...,则构建拉格朗日函数为

                                                       L(w,b,\alpha )=\frac{||w||^{2}}{2}-\sum_{i=1}^N\alpha_iy_i(wx_i+b)+\sum_{i=1}^N\alpha_i \quad,i=1,2,3,4...

  ②根据拉格朗日函数,原始问题的对偶问题是极大极小值问题:

                                                                                            \underset{\alpha}{max}(\underset{w,b}{min}L(w,b,\alpha))

  ③欲求拉格朗日函数L(w,b,\alpha)的最小值,应分别对w和b求偏导,并令其偏导值为0:

                                                                                           \begin{Bmatrix} \bigtriangledown_{b}L(w,b,\alpha)=0&\quad\\ \bigtriangledown_{w}L(w,b,\alpha)=0 &\\ \end{matrix}                                   

   即有:

                                                                                           \begin{Bmatrix} \quad\sum_{i=1}^N}\alpha_{i}y_{i}x_{i}=w&\quad\\ \sum_{i=1}^{N}\alpha_{i}y_{i}=0&\\ \end{matrix}

   将解带入L(w,b,\alpha),可以得到:

                                                                 \underset{w,b}{min}L(w,b,\alpha)=-\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_{i}\alpha_{j}y_{i}y_{j}(x_{i}*x_{j})+\sum_{i=1}^{N}\alpha_{i}                                                   ④求\underset{\alpha}{max}(\underset{w,b}{min}L(w,b,\alpha)),就是对\underset{w,b}{min}L(w,b,\alpha)求关于α的极大值,即有:

                                                                  \begin{Bmatrix} max &-{}\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_{i}\alpha_{j}y_{i}y_{j}(x_{i}*x_{j})+\sum_{i=1}^{N}\alpha_{i} \\ s.t.& \sum_{i=1}^{N}\alpha_{i}y_{i}=0 ,\alpha_{i}\geqslant0,(i=1,2,3,4...N)\\ \end{matrix} 

    转化为:

                                                                  \begin{Bmatrix} min &{}\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_{i}\alpha_{j}y_{i}y_{j}(x_{i}*x_{j})-\sum_{i=1}^{N}\alpha_{i} \\ s.t.& \sum_{i=1}^{N}\alpha_{i}y_{i}=0 ,\alpha_{i}\geqslant0,(i=1,2,3,4...N)\\ \end{matrix}                                                         ⑤根据库恩-塔克条件,只有使\alpha_{j}^*> 0,才会出现y_{j}(w^**x_{j}+b^*)-1=0的点(x_{j},y_{j}),这些样本点就是离分类超平面最近的那些样本(支持向量点),并决定最优超平面的位置。由以上叙述可求得解:

                                                                                \begin{Bmatrix} &w^*=\sum_{i=1}^{N}\alpha_{i}^*y_{i}x_{i}\\ & b^*=y_{j}-\sum_{i=1}^{N}\alpha_{i}^{*}y_{i}(x_{i}*x_{j})\\ \end{matrix} 

上式求解的过程中,(x_{j},y_{j})是任意一个\alpha_{j}^*> 0的样本点,(x_{i},y_{i})是所有\alpha_{i}^*> 0的样本点。

 ⑥原始问题构造的分离超平面可以写作:

                                                                                           \sum_{i=1}^{N}\alpha_{i}^* *y_{i}(x*x_{i})+b^*=0       

    分类决策函数就可以写作:

                                                                                f(x)=sign(\sum_{i=1}^{N}\alpha_{i}^* *y_{i}(x*x_{i})+b^*)                                                                                                                                                                                                                         

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值