机器学习技法总结(一):支持向量机(linear support vector machine,dual support vector machine)

原创 2015年07月08日 20:38:33

第一阶段技法:

large margin (the relationship between large marin and regularization), hard-SVM,soft-SVM,dual problem(解对偶问题),kernel trick,kernel logistic regression,

主要思路是:(这里不区分线性与非线性,差别只是特征空间转换,X空间与Z空间的关系)

1. 从PLA出发,对于二维平面的二分类问题,PLA可能得出一堆能够正确分类的直线,但是哪一条直线会是最好的呢?我们应当如何评价分类的好坏呢?从而导出了large margin 和 support vector的概念。

具有large margin的那条直线具有更好的抗干扰能力,鲁棒性好。而影响margin大小的其实就是在fat边界上的那些数据,这些数据叫做support vector(candidate)。所以,就有了这样的一个优化目标,如何通过调节w使得margin最大。后面就是一系列的数学优化推导,最后转化为二次规划问题得到解决。

下面说明large margin背后所隐藏的一些可以解释为何large margin会“好”的原因:1)从regularization角度看,large margin所对应的优化函数,类似于加了regularizer的线性分类/回归问题,也就是说,large margin对应着regularization;

2)从VC dimension的角度来讲,large margin其实是减少了hypothesis能够shutter的dichotomy(二分类)的数量,也就是说减少了VC dimension,使得模型可以控制overfitting。


2. 我们另一个动机就是:能不能将X特征空间转化到无限维度的特征空间呢?同时为了保证Hoeffding's 不等式对VC dimension的限制及计算量上的限制,则希望转化后的Z空间的VC dimension不跟W的自由度d相关。


因此,开始研究svm的dual problem(对偶问题)。在不断的推导和求解dual support vector machine问题时,用到了著名的KKT条件:

通过上面给的推导和解释,我们可以看到,实际上W值是由on fat boundary上面的support vector线性表出的(这就是后面要讲到的表示定理)。数学的推导与理论分析都说明support vector才是主导我们进行模型选择所用到的数据。


所以,现在重新限制support vector,刚开始我们提出的边界上的data叫做support vector(candidate),而这个通过解dual问题得到的决定W的alpha不为零的data就叫做support vector。


回想PLA,类似support vector machine,这个W都是可以通过样本点线性表出的;PLA实际上是通过犯错误的点表出,而support vector machine则是通过support vector线性表出的。


这就是原始的svm和dual svm的对比。

到目前为止,我们还没有解决W的维度d和计算量的评估,下面将通过一个叫做kernel  trick的方法,实现无限维度的特征转换。





版权声明:本文为博主原创文章,转载请注明出处http://blog.csdn.net/lg1259156776/。

第八讲. 支持向量机进行机器学习——Support Vector Machine

http://blog.csdn.net/abcjennifer/article/details/7849812 本栏目(Machine learning)包括单参数的线性回归、多参数的线性...
  • Erli11
  • Erli11
  • 2014年06月23日 10:32
  • 9810

台湾国立大学机器学习技术.听课笔记(第二讲) :Dual Support Vector Machine

台湾国立大学机器学习技术.听课笔记(第二讲) :Dual Support Vector Machine 一,Motivate of Dual SVM(对偶SVM的动机) 上一讲我们知道要想...
  • huang1024rui
  • huang1024rui
  • 2015年09月08日 10:11
  • 601

SVM(Support Vector Machine)读书笔记二(支持向量和Kernel方法)

在一个线性不可分的样本中,用添加多次项特征可以将两类样本分开,具体原理请参考 这里,用SVM分类器也是同样道理。如果两类样本交叉越多,需要越高次的特征,模型就越复杂,这在存储上和计算资源上都是很大的开...
  • usingnamespace_std
  • usingnamespace_std
  • 2015年11月29日 14:17
  • 1656

机器学习(一)支持向量机(Support Vector Machine)

1.SVM简介1.1 什么是支持向量机支持向量机(Support vector machine)通常用在机器学习 (Machine learning)。是一种监督式学习 (Supervised Lea...
  • xidiancoder
  • xidiancoder
  • 2016年03月17日 15:11
  • 4389

台湾大学林轩田机器学习技法课程学习笔记6 -- Support Vector Regression

上节课我们主要介绍了Kernel Logistic Regression,讨论如何把SVM的技巧应用在soft-binary classification上。方法是使用2-level learning...
  • red_stone1
  • red_stone1
  • 2017年07月09日 13:37
  • 1193

R语言高级算法之支持向量机(Support Vector Machine)

1.支持向量机原理解析 机器学习本质上就是一种对所研究问题真实模型的逼近,通常会假设一个近似模型,然后根据适当的原理将这个近似模型不断逼近真实模型.结构风险就是指近似模型与真实模型之间的差距. 我...
  • claroja
  • claroja
  • 2017年02月15日 13:41
  • 1107

台湾国立大学机器学习技法.听课笔记(第六讲):Support Vector Regression

台湾国立大学机器学习技法.听课笔记(第六讲) :Support Vector Regression 一,Kernel Ridge Regression 1.提出线性岭回归问题 我们上一讲学...
  • huang1024rui
  • huang1024rui
  • 2015年09月20日 22:29
  • 1720

机器学习之支持向量机: Support Vector Machines (SVM)

机器学习之支持向量机: Support Vector Machines (SVM)欢迎访问人工智能研究网 课程中心网址是:http://i.youku.com/studyai 本篇博客介绍机器学...
  • zhjm07054115
  • zhjm07054115
  • 2016年05月18日 22:30
  • 3965

Recorder︱图像特征检测及提取算法、基本属性、匹配方法

在做图像的研究,发现对图像本质、内核以及可以提取的特征方式一点儿都不懂,赶紧补补课。 .一、图像常用属性本节指的是一般来说,图像处理的一些角度,也是根据一些美图软件最为关注的一些图像属性: 基本属性:...
  • sinat_26917383
  • sinat_26917383
  • 2017年03月17日 17:32
  • 2211

台湾大学林轩田机器学习技法课程学习笔记2 -- Dual Support Vector Machine

上节课我们主要介绍了线性支持向量机(Linear Support Vector Machine)。Linear SVM的目标是找出最“胖”的分割线进行正负类的分离,方法是使用二次规划来求出分类线。本节...
  • red_stone1
  • red_stone1
  • 2017年06月28日 16:11
  • 2336
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:机器学习技法总结(一):支持向量机(linear support vector machine,dual support vector machine)
举报原因:
原因补充:

(最多只允许输入30个字)