2015年04月__皮皮的

转载 SVM（六）将SVM用于多类分类

从 SVM的那几张图可以看出来，SVM是一种典型的两类分类器，即它只回答属于正类还是负类的问题。而现实中要解决的问题，往往是多类的问题（少部分例外，例如垃圾邮件过滤，就只需要确定“是”还是“不是”垃圾邮件），比如文本分类，比如数字识别。如何由两类分类器得到多类分类器，就是一个值得研究的问题。还以文本分类为例，现成的方法有很多，其中一种一劳永逸的方法，就是真的一次性考虑所有样本，并求解一个多

2015-04-28 22:11:50 704

转载 SVM（五）松弛变量

现在我们已经把一个本来线性不可分的文本分类问题，通过映射到高维空间而变成了线性可分的。就像下图这样：圆形和方形的点各有成千上万个（毕竟，这就是我们训练集中文档的数量嘛，当然很大了）。现在想象我们有另一个训练集，只比原先这个训练集多了一篇文章，映射到高维空间以后（当然，也使用了相同的核函数），也就多了一个样本点，但是这个样本的位置是这样的：就是图中黄色那个点，它是

2015-04-28 22:10:37 1102

转载 SVM（四）为何需要核函数

生存？还是毁灭？——哈姆雷特可分？还是不可分？——支持向量机之前一直在讨论的线性分类器,器如其名（汗，这是什么说法啊），只能对线性可分的样本做处理。如果提供的样本线性不可分，结果很简单，线性分类器的求解程序会无限循环，永远也解不出来。这必然使得它的适用范围大大缩小，而它的很多优点我们实在不原意放弃，怎么办呢？是否有某种方法，让线性不可分的数据变得线性可分呢？有！其思想说来也

2015-04-28 22:07:46 663

转载 SVM（三）

让我再一次比较完整的重复一下我们要解决的问题：我们有属于两个类别的样本点（并不限定这些点在二维空间中）若干，如图，圆形的样本点定为正样本（连带着，我们可以把正样本所属的类叫做正类），方形的点定为负例。我们想求得这样一个线性函数（在n维空间中的线性函数）：　　g(x)=wx+b 　　使得所有属于正类的点x+代入以后有g(x+)≥1，而所有属于负类的点x-代入后有

2015-04-28 22:04:47 554

转载 SVM（二）线性分类器的求解——问题的描述

上节说到我们有了一个线性分类函数，也有了判断解优劣的标准——即有了优化的目标，这个目标就是最大化几何间隔，但是看过一些关于SVM的论文的人一定记得什么优化的目标是要最小化||w||这样的说法，这是怎么回事呢？回头再看看我们对间隔和几何间隔的定义：　　间隔：δ=y(wx+b)=|g(x)| 　　几何间隔：　　可以看出δ=||w||δ几何。注意到几何间隔与||w||是成反比的，因

2015-04-28 21:53:47 858

转载 SVM的八股简介（一）

转自：http://www.cnblogs.com/cy163/archive/2009/01/02/1367284.html 最近看paper看到一个奇怪的公式，一头雾水，找了好多资料才知道是SVM、SVR。又看了很多博客还是一头雾水，很幸运，看到这篇文章，虽然有点啰嗦，但是很详细，看后明白了很多。有很需要重点理解的我都红色做了标注。（一）SVM的八股简介支持向量机(Sup

2015-04-28 21:29:44 759

主成份（Principal Component Analysis）分析是降维（Dimension Reduction）的重要手段。每一个主成分都是数据在某一个方向上的投影，在不同的方向上这些数据方差Variance的大小由其特征值（eigenvalue）决定。一般我们会选取最大的几个特征值所在的特征向量（eigenvector），这些方向上的信息丰富，一般认为包含了更多我们所感兴趣的信息。当然，这

2015-04-15 09:43:54 854

OPPOA113的专栏