数据挖掘
goodgirl1991
这个作者很懒,什么都没留下…
展开
-
向量空间模型
向量空间模型(VSM:Vector space model)是最常用的相似度计算模型,在自然语言处理中有着广泛的应用,这里简单介绍一下其在进行文档间相似度计算时的原理。假设共有十个词:w1,w2,......,w10,而共有三篇文章,d1,d2和d3。统计所得的词频表(杜撰的,为了便于演示用法)如下: w1w2w3w4转载 2015-03-30 12:19:42 · 616 阅读 · 0 评论 -
ictclas4j如何在eclipse中进行中文分词
ICTCLAS是中科院计算所开发的中文分词程序包,在国内一直有着良好的口碑和很高的使用率。之前一直只有 C++的版本提供,而现在C#,Delphi和Java版本已经纷纷出炉。下面是java版的例子。纯Java版本的ICTCLAS(即ictclas4j),下载地址:http://pan.baidu.com/s/1jGGFXNS(这是0.9.1版的,官网经常打不开,这是我在百度云盘的分享)1、解压转载 2015-03-20 19:37:21 · 767 阅读 · 0 评论 -
决策树概括
决策树的主要思想,就是不断在当前分类状态下寻找对于分类贡献度最大的特征,依据该特征,再将训练样本在现在的分类基础上进一步分类,将每一类依据是否含有特征,分为两类。其分类步骤如下: step1:将所有训练样本视为一类step2:计算所有特征的信息增益,挑选出信息增益最大的特征,即对于分类贡献度最大的特征step3:将训练样本按照是否含有该特征,在当前分类状态下进一步细分,得到2*N原创 2015-11-06 11:01:56 · 444 阅读 · 0 评论