SVM支持向量机二(Lagrange Duality)

原创 2013年12月02日 11:13:04

SVM支持向量机二(Lagrange Duality)



上一节我们得到了结论就是 Maximum margin 的化简结论:
然而我们应该怎么解决他呢,我们可以把s.t.的约束表示为gi(w)<=0,可以的把,自己看看就会了?这里就要用到 Lagrange Duality 数学知识了,不急我们下面先抛开上面的结论,至讲解一些数学知识:

1.Lagrange数学方法
2.Duality(对偶性问题)转换过程(必须满足KKT条件)
3.满足KKT条件转化 min max L()到 max min L()
4.为什么叫做支持向量机(Support Vector Machine)
--------------------------------------------------------------------------------------------------------------
1.Lagrange数学方法

(1)Lagrange去掉等式约束 的情况:
最大化问题带等式约束 g(X)==0 的情况:处理方法就是给约束乘以一个系数加到原命题上,然后求导得出结果:下面回顾一下本科阶段做的简单例题加深印象吧!

(2)Lagrange去掉不等式约束 的情况:

这里是不等式约束的情况,大家千万注意我画的两个红圆圈,这个对以后判断 支持向量 的点很重要,那是你就明白为什么叫支持向量机(Support Vector Machine)了

(3)Lagrange同时去掉等式约束和不等式约束 的情况:

至此Lagrange数学知识介绍完毕了!下面再进一步看看,就可以解决我们开头提出的问题了
---------------------------------------------------------------------------------------------------------------------------------------------

2.Duality(对偶性问题)转换过程(必须满足KKT条件)



我们可以看到,在满足约束条件的情况下 max L()== f(w),而我们的原问题是 min f(w),所以问题变成了:
minw max(w,a,b)L(w,a,b),问题又来了,如果我们按照 先求 max L时问题又还原了,所以我们要想办法,更改
min max L的求值顺序,这就要转化为: Duality(对偶性问题):


相信上面的不等式很容易理解,例如班级当中 个头最矮的一批中个头最高的 肯定小于等于 班级中个头最高的一批中个头最矮的,是不是?在此我查阅了资料如下:

极小极大值(min max)思想是指

     在某一博弈中如果一个局中人根据极小极大值理论的标准来选择他可以采取的战略,那么就是说对他的每一种策略,他首先考虑他采取该策略后能收到的最低支付,然后他在所有最低支付中选择能得到最大支付值的那个战略。极小极大值理论表明二人零和有限纯战略(或连续纯战略和连续纯凸支付函数)的博弈是确定的(即有解)。

证明:
   
     第一个有限纯战略的二人机会与技巧博弈的极小极大值定理是由冯.诺依曼于1928年发表的论文“关于伙伴游戏理论”(Zur Theorie der Gesellschaftsspiele)中给出的[7],结果表明所有的双人零和博弈都是有一个极小极大值解,而这个证明已经出现在他于1926年12月7日提交给了哥廷根数学会的一篇论文中了。冯.诺依曼1928年的这个证明是复杂的,其中既有初等的概率,也有拓扑学的概念,而且不易为读者所读懂。但这个证明是有效的。在一个角注中,冯.诺依曼注明:“当这篇文章快最后完成时,我得知了E波莱尔的工作,波莱尔明确用公式表示了一个对称的二人博弈的双线性形式问题,并且说找不到MaxMin<MinMax的例子。我们以上的结果则回答了他的疑问”。而且冯.诺依曼把他的结果寄给了波莱尔,波莱尔又于1928年6月把它交给了法国科学院。

第一个初等的(非拓朴)的极小极大值原理的证明是波莱尔的学生威莱(Jean Ville)于1938年给出的,收录在波莱尔丛书中[8],这个证明用到了凸性的论证和支撑超平面的概念。同年威莱对连续纯战略的情况作出了第一个极小极大值原理的证明。而冯`诺依曼和摩根斯坦1944年出版的书中对极小极大值的证明正是以Ville1938年的证明为基础的,而不是以冯.诺伊曼1928年的证明为基穿

1944年冯.诺依曼和奥地利经济学家奥.摩根斯坦合作《博弈论与经济行为》(Theory of games and economic behavior)一书的出版,标志着博弈论的创立。此后以卢密斯(Loomis,美国数学家)的完全代数方法的极小极大值定理的证明为开端,在数学界发起了一场进一步证明极小极大值定理的运动,其中,以赫尔曼.外尔(Hermann Weyl,美国数学家)1950年给出的一个更简明的极小极大值定理的初等证明为高潮,这个证明依据了他早期关于凸多面体的工作。所有的这些证明大致可以分为两个类别:一个类别是以不动点理论或迭代程序为基础,另一类别是以凸集理论为基穿

综上所述,尽管瓦德哥锐的贡献是孤立的,被人们忽视了,但最先发现极小极大值混合策略解的荣誉应归功于他。而属于波莱尔的荣誉应有:第一个用现代公式表示混合策略,首次给出了找到具有3个或5个纯策略的博弈的极小极大值解的一般方法。冯.诺依曼则应得到第一个证明极小极大值定理的荣誉。而第一个用初等方法证明极小极大值定理的荣誉应属于威莱,而且他还把这一原理推广到了具有无限多的连续策略的博弈例子中。

那么 min max 和 max min 何时相等呢?请看下面KKT条件!!!

3.满足KKT条件转化 min max L()到 max min L()


解释:

convex的定义:凸形曲线-----即g(w)是直线(凸曲线特例,还是凸曲线),高维就是凸曲线了,
affine(仿射变换)的定义:若变换S∶Rn→Rn,S(x)=T(x)+a,T是非奇异线性变换,a∈Rn,则变换S称为仿射变换
也就是非奇异线性变换加一个平移,h(w)是满足的

其实就是满足KKT条件,下面我们来看一下KKT条件什么样子就行了:

下面加深理解哈!
我们开头的

其中约束条件s.t.可以表示成: gi(w)= 1 -  yi*(wT*xi+ b)<= 0 对吧!等于0的情况正好落在 那两条虚线上,就是支持向量的点,这时候 对应的 ai != 0 .

这个时候我们的问题就转化成了 

到此为止,我们的原问题转化为了 带红色边框的 max min L问题了,下面我们就要分步去求解 :
第一步:求 minw L(w,a,b)
第二步:求 maxL(w,a,b)

第一步:求 minw L(w,a,b)

我们可以看出 L(w,b,a)是一个关于w的二次凸函数,所以有最小值,求导即可


经过对 w 和 b 求偏导之后就得到上图的’‘ *号等式 ‘’回代到 L(w,a,b)得到:
这个时候第一步就解决了,最小值问题就解决了。
具体推导公式为:



得到:



4.为什么叫做支持向量机(Support Vector Machine)









第二步:求 maxL(w,a,b)
至此我们很有技巧的地方就是,w,b 被化解完了,只剩下 ai 等参数了,而 w可以用 ai 表示出来:

现在问题就是我们该如何求解 alpha 呢? alpha如何更新呢? w更新可以有alpha表示更新,还有就是为什么这样更新可以是 W(alphas)值逐渐增大呢??

在这个问题之前我们要先进行软间隔处理哈:

参考: 

SVM支持向量机三(软间隔处理规则化和不可分情况)


关于这个问题,我们可以有两种方法求解

1. SVM求解之坐标上升算法(Coordinate Ascent)
可以参考我另一篇文章:SVM求解之坐标上升算法(Coordinate Ascent)

2. SVM之SMO算法
可以参考我另一篇文章SVM支持向量机四(SMO算法)
版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

SVM支持向量机一(入门)

SVM支持向量机一       经过上南京理工大学夏睿的机器学习课程,下文也主要借助了夏老师的PPT截图进行讲解 和美国 Stanford Andrew Ng Machine Learning的网络公...

SVM支持向量机三(软间隔处理规则化和不可分情况)

SVM支持向量机三(软间隔处理规则化和不可分情况)

听学长学姐聊求职血泪史

【听学长学姐聊求职】2013年计算机专业硕士研究生好就业吗?一位计算机专业硕士毕业生的求职经历和感想 2014届校招基本慢慢收尾,现特将本人和小伙伴们的求职血泪史记录,并且推荐一些书籍供学弟学妹们参...

SVM原理介绍与Python实现(四):利用规则化(regularization)处理不可分情况

四、规则化和不可分处理 我们一直假设数据是可分的,不论是引入核函数前的线性可分SVM,还是利用核函数处理非线性数据,都是在可分的情况下。如果不是因为数据本身的非线性结构而是由噪声数据引起的偏离要怎么...

机器学习算法与Python实践之(二)支持向量机(SVM)初级

机器学习算法与Python实践之(二)支持向量机(SVM)初级zouxy09@qq.comhttp://blog.csdn.net/zouxy09        机器学习算法与Python实践这个系列...

支持向量机笔记(二) Lagrange duality

拉格朗日对偶 因为下一讲要用到这方面的知识,所以先在这里学习下,它其实就是我们本科阶段所学的拉格朗日乘数法: 以上来自百度百科。只不过在这里我们是多维的。首先我们的优化问题如下:

支持向量机笔记(一) functional and geometric margins

最近在看机器学习,感觉有点朦胧,于是写下这些知识点,在自己忘记的时候能够翻出来看看。我是以stanford的cs229的讲义为蓝本的,上面有些洋文我感觉翻译出来就失去了原有的味道,(主要是我不会翻译)...

支持向量机通俗导论(理解SVM的三层境界)

支持向量机通俗导论(理解SVM的三层境界)作者:July、pluskid ;致谢:白石、jerrylead出处:结构之法算法之道blog。前言第一层、了解SVM  1.0、什么是支持向量机SVM  1...

SVM的一些好的博客

支持向量机即 Support Vector Machine,简称 SVM 。我最开始听说这头机器的名号的时候,一种神秘感就油然而生,似乎把 Support 这么一个具体的动作和 Vector 这么一个...
  • roypi
  • roypi
  • 2014-06-05 19:48
  • 678

看懂论文的机器学习基本知识(三)--假正例、假负例、ROC曲线

假正例(False Positive):预测为1,实际为0的样本 假负例(False Negative):预测为0,实际为1的样本 实际预测中,那些真正例(True Positive)和真负例(...
  • roypi
  • roypi
  • 2013-12-28 22:41
  • 4046
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)