2017年05月_码弟

06月 05月

原创 weka文本聚类（3）--文本转换成arff

要使用weka进行聚类分析，必须先将文本数据转换成weka可识别的arff格式。Instances类是weka可识别的数据类，其toString方法即可转换为arff格式的数据。在文本聚类中，arff格式的示例如下： @relation patent @attribute text string @data '第一篇文章的内容' '第二篇文章的内容' ...... 经过摸

2017-05-10 22:13:55 2557

原创 weka文本聚类（2）--分词和停用词处理

weka本身自带英文分词，没有自带中文分词，因此需要自己进行中文分词。可以通过继承Tokenizer，并覆盖里面的方法，如下： public String globalInfo() public boolean hasMoreElements() public String nextElement() public void tokenize(String s) public Str

2017-05-09 18:27:57 2337

由于做毕业论文需要用到文本聚类，之前完全没有接触过这个领域，从一步一步探索，到成功完成聚类，花费了不少的时间和精力。现在将最近的学习经验整理下来，方便记忆同时也能为刚入门的朋友提供一些指导方向。在百度上随便可以搜索到利用weka进行文本聚类的示例，非常详细，但是不足的是，它们都是用命令行进行的，而用java语言调用weka进行文本聚类的完整例子却很难找到。文本聚类的理论基础是VSM向量空间模型，关

2017-05-09 18:12:11 1423

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

aa326026508的博客

原创 weka文本聚类（3）--文本转换成arff

原创 weka文本聚类（2）--分词和停用词处理

原创 weka文本聚类（1）--概述

空空如也

空空如也