weka文本聚类(3)--文本转换成arff

本文介绍了如何将文本数据转换为Weka可识别的ARFF格式以进行聚类分析。主要方法包括:通过数据库连接(复杂且不实用)、使用TextDirectoryLoader(适用于文件夹结构的文本)以及直接构造Instances(适用于自定义文本列表)。文中提供了详细的代码示例,包括使用TextDirectoryLoader和自定义方法进行文本分词和构建Instances。
摘要由CSDN通过智能技术生成

    要使用weka进行聚类分析,必须先将文本数据转换成weka可识别的arff格式。Instances类是weka可识别的数据类,其toString方法即可转换为arff格式的数据。在文本聚类中,arff格式的示例如下:

@relation patent

@attribute text string

@data
'第一篇文章的内容'

'第二篇文章的内容'

......

经过摸索,主要有三种方式将文本转换成Instances类。

    (1)连接数据库。weka对数据库连接的支持很差,需要将weka的jar解压,再修改里面的参数重新打包才可以正常使用。修改参数的示例百度上有许多,现在送上一个链接,是修改完参数后的java调用教程。这种方式特别麻烦,不实用。

    (2)调用TextDirectoryLoader。此类是weka自带的Loader,能够读取一个文件夹下的文本,并转换成arff格式。其调用非常简单,但是有几个需要注意的点。首先是文本的摆放格式,一篇文本用一个文件保存,但是主文件夹下不能直接放置文本文件,需要建立不同的文件夹放置不同种类的文本文件。举个例子,如在“d:\\text"目录下,应该建立多个子文件夹,如“class1”,"class2",在两个子文件夹下再放置文本文件。本次使用主题是用weka进行文本聚类,因此,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值