weka文本聚类（1）--概述

最新推荐文章于 2021-12-21 18:26:25 发布

码弟

最新推荐文章于 2021-12-21 18:26:25 发布

阅读量1.4k

点赞数

分类专栏：文本聚类文章标签： weka 文本聚类 java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/aa326026508/article/details/71486235

版权

文本聚类专栏收录该内容

3 篇文章 0 订阅

订阅专栏

由于做毕业论文需要用到文本聚类，之前完全没有接触过这个领域，从一步一步探索，到成功完成聚类，花费了不少的时间和精力。现在将最近的学习经验整理下来，方便记忆同时也能为刚入门的朋友提供一些指导方向。在百度上随便可以搜索到利用weka进行文本聚类的示例，非常详细，但是不足的是，它们都是用命令行进行的，而用java语言调用weka进行文本聚类的完整例子却很难找到。文本聚类的理论基础是VSM向量空间模型，关于这个理论可以在百度搜索到，各大神的讲解非常完美，比我这个小白厉害多了，因此我就不再叙述这个理论了，完全从实际调用weka讲起。

一般来说，文本聚类的过程分为：

（1）读取文本，并对文本进行分词，去除掉没有意义的停用词，如“呀，啊”等等。

（2）构造向量空间模型，设置模型的一些参数

（3）选择合适的距离函数进行文本聚类

（4）分析聚类结果

接下来的文章会从这四个部分开始讲解。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
weka文本聚类（1）--概述

由于做毕业论文需要用到文本聚类，之前完全没有接触过这个领域，从一步一步探索，到成功完成聚类，花费了不少的时间和精力。现在将最近的学习经验整理下来，方便记忆同时也能为刚入门的朋友提供一些指导方向。在百度上随便可以搜索到利用weka进行文本聚类的示例，非常详细，但是不足的是，它们都是用命令行进行的，而用java语言调用weka进行文本聚类的完整例子却很难找到。文本聚类的理论基础是VSM向量空间模型，关
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。