数据挖掘
surehao
这个作者很懒,什么都没留下…
展开
-
向量空间模型(VSM:Vector space model)
向量空间模型(VSM:Vector space model)是最常用的相似度计算模型,在自然语言处理中有着广泛的应用,这里简单介绍一下其在进行文档间相似度计算时的原理。假设共有十个词:w1,w2,......,w10,而共有三篇文章,d1,d2和d3。统计所得的词频表(杜撰的,为了便于演示用法)如下: w1w2w3w4转载 2014-02-21 15:31:55 · 6262 阅读 · 0 评论 -
ICTCLAS的JNI调用接口说明
1. ICTCLAS_Init 功能:初始化分析器并根据配置文件为ICTCLAS准备必要的数据. 方法:boolean ICTCLAS_Init(byte[] sPath); 返回:如果初始化成功则返回true,否则返回false; 参数:sPath:初始化词典路径,Configure.xml和Data文件夹储存的位置转载 2014-02-14 15:55:42 · 1216 阅读 · 0 评论 -
ICTCLAS 中科院分词 在java上的实现demo
注意点: 1,包名一定要是ICTCLAS.I3S.AC2,要在ICTCLAS50.java这里System.loadLibrary("ICTCLAS50");而且要做方法的声明eg: public native boolean ICTCLAS_Init(byte[] sPath);public native boolean ICTCLAS_Exit();public nati原创 2014-02-14 16:49:11 · 1608 阅读 · 0 评论