- 博客(3)
- 收藏
- 关注
原创 weka文本聚类(3)--文本转换成arff
要使用weka进行聚类分析,必须先将文本数据转换成weka可识别的arff格式。Instances类是weka可识别的数据类,其toString方法即可转换为arff格式的数据。在文本聚类中,arff格式的示例如下: @relation patent @attribute text string @data '第一篇文章的内容' '第二篇文章的内容' ...... 经过摸
2017-05-10 22:13:55 2557
原创 weka文本聚类(2)--分词和停用词处理
weka本身自带英文分词,没有自带中文分词,因此需要自己进行中文分词。可以通过继承Tokenizer,并覆盖里面的方法,如下: public String globalInfo() public boolean hasMoreElements() public String nextElement() public void tokenize(String s) public Str
2017-05-09 18:27:57 2337
原创 weka文本聚类(1)--概述
由于做毕业论文需要用到文本聚类,之前完全没有接触过这个领域,从一步一步探索,到成功完成聚类,花费了不少的时间和精力。现在将最近的学习经验整理下来,方便记忆同时也能为刚入门的朋友提供一些指导方向。在百度上随便可以搜索到利用weka进行文本聚类的示例,非常详细,但是不足的是,它们都是用命令行进行的,而用java语言调用weka进行文本聚类的完整例子却很难找到。文本聚类的理论基础是VSM向量空间模型,关
2017-05-09 18:12:11 1423
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人