机器学习和模式识别
文章平均质量分 76
lovejuan1314
这个作者很懒,什么都没留下…
展开
-
SVM学习<一>
摘录自:http://www.blogjava.net/zhenandaci/archive/2009/02/13/254519.html SVM简介 支持向量机是Cortes和Vapnik于1995年首先提出来的,它再解决小样本,非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。 支持向量急方法是简历再统计学习理论的VC维理论合结构风险...2010-04-19 23:48:29 · 121 阅读 · 0 评论 -
文本分类入门(十一)特征选择方法之信息增益
摘自:[url]http://www.blogjava.net/zhenandaci/archive/2009/03/24/261701.html[/url] 前文提到过,除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是很有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而如何量化特征的重要性,就成了各种方法间最大的不同。开方检验...2010-04-23 17:14:39 · 1162 阅读 · 0 评论 -
SVM入门(十)将SVM用于多类分类
摘自:[url]http://www.blogjava.net/zhenandaci/archive/2009/03/26/262113.html[/url] 从 SVM的那几张图可以看出来,SVM是一种典型的两类分类器,即它只回答属于正类还是负类的问题。而现实中要解决的问题,往往是多类的问题(少部分例外,例如垃圾邮件过滤,就只需要确定“是”还是“不是”垃圾邮件),比如文本分类,比如数字识别...2010-04-23 17:06:20 · 966 阅读 · 0 评论 -
SVM入门(九)松弛变量(续)
摘自:[url]http://www.blogjava.net/zhenandaci/archive/2009/03/17/260315.html[/url] 接下来要说的东西其实不是松弛变量本身,但由于是为了使用松弛变量才引入的,因此放在这里也算合适,那就是惩罚因子C。回头看一眼引入了松弛变量以后的优化问题: [img]http://www.blogjava.net/images/b...2010-04-23 17:04:22 · 498 阅读 · 0 评论 -
SVM入门(八)松弛变量
摘自:[url]http://www.blogjava.net/zhenandaci/archive/2009/03/15/259786.html[/url] 现在我们已经把一个本来线性不可分的文本分类问题,通过映射到高维空间而变成了线性可分的。就像下图这样: [img]http://www.blogjava.net/images/blogjava_net/zhenandaci/...2010-04-23 17:02:14 · 1349 阅读 · 0 评论 -
SVM入门(七)为何需要核函数
摘自:[url]http://www.blogjava.net/zhenandaci/archive/2009/03/06/258288.html[/url] 生存?还是毁灭?——哈姆雷特 可分?还是不可分?——支持向量机 之前一直在讨论的线性分类器,器如其名(汗,这是什么说法啊),只能对线性可分的样本做处理。如果提供的样本线性不可分,结果很简单,线性分类器的求解程序会无限循环,...2010-04-23 16:58:40 · 889 阅读 · 0 评论 -
SVM入门(六)线性分类器的求解——问题的转化,直观角度
摘自:[url]http://www.blogjava.net/zhenandaci/archive/2009/03/01/257237.html[/url] 让我再一次比较完整的重复一下我们要解决的问题:我们有属于两个类别的样本点(并不限定这些点在二维空间中)若干,如图, [img]http://www.blogjava.net/images/blogjava_net/zhenand...2010-04-23 16:54:42 · 146 阅读 · 0 评论 -
SVM入门(五)线性分类器的求解——问题的描述Part2
摘自:[url]http://www.blogjava.net/zhenandaci/archive/2009/02/14/254630.html[/url] 从最一般的定义上说,一个求最小值的问题就是一个优化问题(也叫寻优问题,更文绉绉的叫法是规划——Programming),它同样由两部分组成,目标函数和约束条件,可以用下面的式子表示: [img]http://www.blogja...2010-04-23 16:52:40 · 170 阅读 · 0 评论 -
SVM入门(四)线性分类器的求解——问题的描述Part1
摘录自:[url]http://www.blogjava.net/zhenandaci/archive/2009/02/13/254578.html[/url] 上节说到我们有了一个线性分类函数,也有了判断解优劣的标准——即有了优化的目标,这个目标就是最大化几何间隔,但是看过一些关于SVM的论文的人一定记得什么优化的目标是要最小化||w||这样的说法,这是怎么回事呢?回头再看看我们对间隔和几...2010-04-23 16:48:53 · 111 阅读 · 0 评论 -
SVM入门(三)线性分类器Part 2
摘录自:[url]http://www.blogjava.net/zhenandaci/archive/2009/02/13/254519.html[/url] 上回说到对于文本分类这样的不适定问题(有一个以上解的问题称为不适定问题),需要有一个指标来衡量解决方案(即我们通过训练建立的分类模型)的好坏,而分类间隔是一个比较好的指标。 在进行文本分类的时候,我们可以让计算机这样来看待我...2010-04-23 16:44:42 · 112 阅读 · 0 评论 -
SVM入门(二)线性分类器Part 1
摘录自:http://www.blogjava.net/zhenandaci/archive/2009/02/13/254519.html 线性分类器(一定意义上,也可以叫做感知机) 是最简单也很有效的分类器形式.在一个线性分类器中,可以看到SVM形成的思路,并接触很多SVM的核心概念. 用一个二维空间里仅有两类样本的分类问题来举个小例子。如图所示 [img]http://www....2010-04-23 16:33:37 · 258 阅读 · 0 评论 -
文本分类入门(番外篇)特征选择与特征权重计算的区别
摘自:[url]http://www.blogjava.net/zhenandaci/archive/2009/04/19/266388.html[/url] 在文本分类的过程中,特征(也可以简单的理解为“词”)从人类能够理解的形式转换为计算机能够理解的形式时,实际上经过了两步骤的量化——特征选择阶段的重要程度量化和将具体文本转化为向量时的特征权重量化。初次接触文本分类的人很容易混淆这两个步...2010-04-23 17:16:08 · 924 阅读 · 0 评论