西瓜书、南瓜书第6章学习笔记

支持向量机

一、算法原理

        从几何角度,对于线性可分数据集,支持向量机就是找距离正负样本都最远的超平面,相比于感知机其唯一的,且不偏不倚泛化性能更好

二、超平面

1.n维空间的超平面(w^{T}x+b=0, 其中w,x\in \mathbb{R}^{n})

    (1)超平面方程不唯一

    (2)法向量w和位移项b确定一个唯一超平面

    (3)法向量w垂直于超平面(缩放w,b时,若缩放倍数为负数会改变法向量方向)

    (4)法向量w指向的那一半空间为正空间,另一半为负空间

    (5)任意点x到超平面的距离公式为r=\frac{|w^{T}x+b|}{||w||}

2.【证明】:对应于任意一点x_{0}=(x_{1}^{0},x_{2}^{0},...,x_{n}^{0})^{T},设其在超平面w^{T}x+b=0上的投影点为x_{1}=(x_{1}^{1},x_{2}^{1},...,x_{n}^{1})^{T},则w^{T}x_{1}+b=0,且向量\overrightarrow{x_{1}x_{0}}与法向量w平行,所以有

 |w^{T}x_{0}+b| = ||w||\cdot ||\overrightarrow{x_{1}x_{0}}|| = ||w||\cdot r

三、几何间隔

对于给定的数据集X和超平面w^{T}x+b=0,定义数据集X中的任意一个样本点(x_{i},y_{i}),y_{i}\in \left \{ -1,1 \right \},i=1,2,,...,m关于超平面的几何间隔为

\gamma _{i}=\frac{y_{i(w^{T}x_{i}+b)}}{||w||}

正确分类时:\gamma _{i}> 0,几何间隔此时也等价于点到超平面的距离

未正确分类时:\gamma _{i}< 0

对于给定的数据集X和超平面w^{T}x+b=0,定义数据集X关于超平面的几何间隔为:

数据集X中所有样本点的几何间隔最小值

\gamma =\underset{i=1,2,...,m}{min}\gamma_{i}

四、支持向量机

1.模型:

给定向性可分数据集X,支持向量机模型希望求得数据集X关于超平面的几何间隔\gamma达到最大的那个超平面,然后套上一个sign函数实现分类功能

y=sign(w^{T}x+b)=\{ _{-1,w^{T}x+b < 0}^{1,w^{T}x+b > 0} 

所以其本质和感知机一样,仍然是在求一个超平面。

但几何间隔最大的超平面就一定是前面所说的那个“距离正负样本都最远的超平面”吗? 

是的,原因如下:

    (1)当超平面没有正确划分正负样本时:几何间隔最小的为误分类点,因此\gamma< 0

    (2)当超平面正确划分超平面时:\gamma\geqslant 0,且越靠近中央\gamma越大

2.策略:

给定线性可分数据集X,设X中几何间隔最小的样本为(x_{min},y_{min}),那么支持向量机赵超平面的过程可以转化为以下带约束条件的优化问题:

 假设该问题的最优解为(w^{*},b^{*}),那么(\alpha w^{*},\alpha b^{*}),\alpha \in\mathbb{R}^{+}也是最优解,且超平面也不变,因此还需对w,b做一定限制才能使得上述优化问题有可解的唯一解。不妨令y_{min}(w^{T}x_{min}+b)=1,

因为对特定的(x_{min},y_{min})来说,能使得y_{min}(w^{T}x_{min}+b)=1\alpha有且仅有一个。

因此上述优化问题进一步转化为:

 进一步恒等变换得:

此优化问题为含不等式约束的优化问题,且为凸优化问题,因此可以直接用很多专门求解凸优化问题的方法求解该问题。

支持向量机通常采用拉格朗日对偶来求解。

3.拉格朗日对偶:

对于一般的约束优化问题:

图3.1

若目标函数f(x)是凸函数,约束集合是凸集,则称上述优化问题为凸优化问题。

特别地,g_{i}(x)是凸函数,h_{j}(x)是线性函数时,约束集合为凸集,该优化问题为凸优化问题。显然,支持向量机的目标函数\frac{1}{2}||w||^{2}是关于w的凸函数,不等式约束1-y_{i}(w^{T}x_{i}+b)也是关于w的凸函数,因此支持向量机是一个凸优化问题。 

设图3.1中的优化问题的定义域为D=dom F\cap \bigcap_{i=1}^{m} dom g_{i} \cap \bigcap_{j=1}^{n} dom h_{j},可行集为

\widetilde{D}=\left \{ x|x\in D ,g_{i}(x)\leqslant 0,h_{j}(x)=0\right \},显然\widetilde{D}D的子集,最优值为p^{*}=min\left \{ f(\widetilde{x}) \right \}。由拉格朗日函数的定义可知上述优化问题的拉格朗日函数为:


L(x,\mu ,\lambda )=f(x)+\sum_{i=1}^{m}\mu_{i}g_{i}(x)+\sum_{j=1}^{n} \lambda_{j}h_{j}(x)

 其中\mu=(\mu_{1},\mu_{2},...,\mu_{m})^{T}\lambda=(\lambda_{1},\lambda_{2},...,\lambda_{n})^{T}为拉格朗日乘子向量。

定义上述优化问题的拉格朗日对偶函数\Gamma (\mu,\lambda)(注意其自变量不包含x)为L(x,\mu ,\lambda )关于x的下确界,即

\Gamma (\mu,\lambda)=\underset{x\in D}{\inf} L(x,\mu,\lambda)=\underset{x\in D}{\inf}(f(x)+\sum_{i=1}^{m}\mu_{i}g_{i}(x)+\sum_{j=1}^{n} \lambda_{j}h_{j}(x))

对偶函数 \Gamma (\mu,\lambda)有如下重要性质

    (1)无论上述优化问题是否为凸优化问题,其对偶函数\Gamma (\mu,\lambda)恒为凹函数

    (2)当\mu\succeq 0时,\Gamma (\mu,\lambda)构成了上述优化问题最优值p^{*}的下界,也即\Gamma (\mu,\lambda)\leqslant p^{*}

【证明(2)】:

\widetilde{x}\in \widetilde{D}是优化问题的可行点,那么当\mu\succeq 0

\sum_{i=1}^{n}\mu_{i}g_{i}(\widetilde{x})+\sum_{j=1}^{m} \lambda_{j}h_{j}(\widetilde{x})\leqslant 0

这是因为左边第一项非正而第二项恒为0。

据此不等式可推得:

所以,当 \mu\succeq 0时,\Gamma (\mu,\lambda)\leqslant p^{*}恒成立。

定义在满足\mu\succeq 0这个约束条件下求对偶函数最大值的优化问题为拉格朗日对偶问题

(原优化问题称为主问题)

\max \ \Gamma (\mu,\lambda)\\ s.t. \ \ \ \mu\succeq 0

设该优化问题的最优值为d^{*},显然d^{*}\leqslant p^{*},此时称为“弱对偶性”成立,若 d^{*}= p^{*},则称为“强对偶性”成立。通过这种绕了一圈的方式,我们找到了一种求得p^{*}的方法。

    (1)挡住问题满足某些充分条件时,强对偶性成立。常见充分条件有Slater条件:“若主问题               是凸优化问题,且可行集\widetilde{D}中存在一点能使得所有不等式约束的不等号成立,则强对偶性               成立。”支持向量机显然满足Slater条件。

    (2)无论主问题是否为凸优化问题,对偶问题恒为凸优化问题,因为对偶函数\Gamma (\mu,\lambda)恒为凹                 函数(加个负号即可转为凸函数),约束条件\mu\succeq 0恒为凸集。

f(x),g_{i}(x),h_{j}(x)一阶连续偏导,x^{*},(\mu^{*},\lambda^{*})分别为主问题和对偶问题的最优解,若强对偶性成立,则x^{*},\mu^{*},\lambda^{*}一定能够满足如下5个条件:

以上5个条件也称为KKT条件。

主问题:

 拉格朗日函数:

 若将w,b合并为\widehat{w}=(w;b),显然上式是关于\widehat{w}的凸函数,直接求一阶导令其等于0,然后带入可得到最小值,即拉格朗日对偶函数。

下面再给出另一种推导方式:

由于L(w,b,\alpha)是关于w的凸函数,关于b的线性函数,所以当b的系数不为0时下确界为-\infty,当b的系数为0时,下确界就有其他部分来确定,所以L(w,b,\alpha)的下确界(对偶函数)为:

 对偶函数:

 

 再根据强对偶性成立推得最优解必须满足如下KKT条件

为什么支持向量机通常采用拉格朗日对偶求解呢?

    (1)无论主问题是何种优化问题,对偶问题恒为凸优化问题 ,因此更容易求解(尽管支持向                 量机的主问题本就是凸优化问题),而且原始问题的时间复杂度和特征维数呈正比(因为               未知量是w)而对偶问题和数据量成正比(因为未知量是\alpha),当特征维数远高于数据量                 时拉格朗日对偶更高效。

    (2)对偶问题能很自然地引入核函数,进而推广到非线性分类问题(最主要的原因)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值