由于做毕业论文需要用到文本聚类,之前完全没有接触过这个领域,从一步一步探索,到成功完成聚类,花费了不少的时间和精力。现在将最近的学习经验整理下来,方便记忆同时也能为刚入门的朋友提供一些指导方向。在百度上随便可以搜索到利用weka进行文本聚类的示例,非常详细,但是不足的是,它们都是用命令行进行的,而用java语言调用weka进行文本聚类的完整例子却很难找到。文本聚类的理论基础是VSM向量空间模型,关于这个理论可以在百度搜索到,各大神的讲解非常完美,比我这个小白厉害多了,因此我就不再叙述这个理论了,完全从实际调用weka讲起。
一般来说,文本聚类的过程分为:
(1)读取文本,并对文本进行分词,去除掉没有意义的停用词,如“呀,啊”等等。
(2)构造向量空间模型,设置模型的一些参数
(3)选择合适的距离函数进行文本聚类
(4)分析聚类结果
接下来的文章会从这四个部分开始讲解。