自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 weka文本聚类(3)--文本转换成arff

要使用weka进行聚类分析,必须先将文本数据转换成weka可识别的arff格式。Instances类是weka可识别的数据类,其toString方法即可转换为arff格式的数据。在文本聚类中,arff格式的示例如下: @relation patent @attribute text string @data '第一篇文章的内容' '第二篇文章的内容' ...... 经过摸

2017-05-10 22:13:55 2557

原创 weka文本聚类(2)--分词和停用词处理

weka本身自带英文分词,没有自带中文分词,因此需要自己进行中文分词。可以通过继承Tokenizer,并覆盖里面的方法,如下: public String globalInfo() public boolean hasMoreElements() public String nextElement() public void tokenize(String s) public Str

2017-05-09 18:27:57 2337

原创 weka文本聚类(1)--概述

由于做毕业论文需要用到文本聚类,之前完全没有接触过这个领域,从一步一步探索,到成功完成聚类,花费了不少的时间和精力。现在将最近的学习经验整理下来,方便记忆同时也能为刚入门的朋友提供一些指导方向。在百度上随便可以搜索到利用weka进行文本聚类的示例,非常详细,但是不足的是,它们都是用命令行进行的,而用java语言调用weka进行文本聚类的完整例子却很难找到。文本聚类的理论基础是VSM向量空间模型,关

2017-05-09 18:12:11 1423

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除