- 博客(12)
- 资源 (8)
- 收藏
- 关注
转载 PyMongo基本使用
引用PyMongo >>> import pymongo 创建连接Connection >>> import pymongo >>> conn = pymongo.Connection('localhost',27017) 或 >>> from pymongo import Connection >>> conn = Connection('localhos
2014-01-14 14:19:25 592
转载 文本分类入门(番外篇)特征选择与特征权重计算的区别
转自:http://www.blogjava.net/zhenandaci/archive/2009/04/19/266388.html在文本分类的过程中,特征(也可以简单的理解为“词”)从人类能够理解的形式转换为计算机能够理解的形式时,实际上经过了两步骤的量化——特征选择阶段的重要程度量化和将具体文本转化为向量时的特征权重量化。初次接触文本分类的人很容易混淆这两个步骤使用的方法和各自
2014-01-14 02:32:27 668
转载 文本分类入门(十一)特征选择方法之信息增益
转自:http://www.blogjava.net/zhenandaci/archive/2009/03/24/261701.html前文提到过,除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是很有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而如何量化特征的重要性,就成了各种方法间最大的不同。开方检验中使用特征与类别间
2014-01-14 02:30:50 699
转载 SVM入门(十)将SVM用于多类分类
转自:http://www.blogjava.net/zhenandaci/archive/2009/03/26/262113.html从 SVM的那几张图可以看出来,SVM是一种典型的两类分类器,即它只回答属于正类还是负类的问题。而现实中要解决的问题,往往是多类的问题(少部分例外,例如垃圾邮件过滤,就只需要确定“是”还是“不是”垃圾邮件),比如文本分类,比如数字识别。如何由两类分类器
2014-01-14 02:30:03 531
转载 SVM入门(九)松弛变量(续)
转自:http://www.blogjava.net/zhenandaci/archive/2009/03/17/260315.html接下来要说的东西其实不是松弛变量本身,但由于是为了使用松弛变量才引入的,因此放在这里也算合适,那就是惩罚因子C。回头看一眼引入了松弛变量以后的优化问题:注意其中C的位置,也可以回想一下C所起的作用(表征你有多么重视离群点,C越大越重视,越不想丢
2014-01-14 02:29:18 681
转载 SVM入门(八)松弛变量
转自:http://www.blogjava.net/zhenandaci/archive/2009/03/15/259786.html现在我们已经把一个本来线性不可分的文本分类问题,通过映射到高维空间而变成了线性可分的。就像下图这样: 圆形和方形的点各有成千上万个(毕竟,这就是我们训练集中文档的数量嘛,当然很大了)。现在想象我们有另一个训练集,只比原先这个训练集
2014-01-14 02:28:25 569
转载 SVM入门(七)为何需要核函数
转自:http://www.blogjava.net/zhenandaci/archive/2009/03/06/258288.html生存?还是毁灭?——哈姆雷特 可分?还是不可分?——支持向量机 之前一直在讨论的线性分类器,器如其名(汗,这是什么说法啊),只能对线性可分的样本做处理。如果提供的样本线性不可分,结果很简单,线性分类器的求解程序会无限循环,永远也解不出来。这必然使得
2014-01-14 02:27:37 630
转载 SVM入门(六)线性分类器的求解——问题的转化,直观角度
转自:http://www.blogjava.net/zhenandaci/archive/2009/03/01/257237.html让我再一次比较完整的重复一下我们要解决的问题:我们有属于两个类别的样本点(并不限定这些点在二维空间中)若干,如图, 圆形的样本点定为正样本(连带着,我们可以把正样本所属的类叫做正类),方形的点定为负例。我们想求得这样一个线性函数(在n维空间中的
2014-01-14 02:26:31 538
转载 SVM入门(五)线性分类器的求解——问题的描述Part2
转自:http://www.blogjava.net/zhenandaci/archive/2009/02/14/254630.html从最一般的定义上说,一个求最小值的问题就是一个优化问题(也叫寻优问题,更文绉绉的叫法是规划——Programming),它同样由两部分组成,目标函数和约束条件,可以用下面的式子表示:(式1)约束条件用函数c来表示,就是constrain的意
2014-01-14 02:25:16 565
转载 SVM入门(四)线性分类器的求解——问题的描述Part1
转自:http://www.blogjava.net/zhenandaci/archive/2009/02/上节说到我们有了一个线性分类函数,也有了判断解优劣的标准——即有了优化的目标,这个目标就是最大化几何间隔,但是看过一些关于SVM的论文的人一定记得什么优化的目标是要最小化||w||这样的说法,这是怎么回事呢?回头再看看我们对间隔和几何间隔的定义:间隔:δ=y(wx+b)=|g
2014-01-14 02:24:06 579
转载 SVM入门(一)至(三)Refresh
转自:http://www.blogjava.net/zhenandaci/archive/2009/02/13/254519.html按:之前的文章重新汇编一下,修改了一些错误和不当的说法,一起复习,然后继续SVM之旅.(一)SVM的八股简介支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高
2014-01-14 02:21:28 557
转载 python subprocess Popen
01subprocess.Popen(args02 ,bufsize=003 ,executable=None04 ,stdin=None05
2014-01-13 16:42:52 635
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人