简介:
Weka支持多种数据导入方式,CSVLoader是能从csv文件加载数据集,也可以保存为arff格式文件。官方介绍文件:Converting CSV to ARFF (
http://weka.wikispaces.com/Converting+CSV+to+ARFF)
CSVLoader加载文件,关键是对文件字段属性名称和属性的类型需要自己定义,这样才能得到满足自己需要的数据集。
CSVLoader通过options设置,可以设置每一列的属性为Nominal,String,Date类型。如"-N 1-2 -S 3 -D 4" Options 就是将属性1-2设置为Nominal类型,属性3设置为String类型,属性4设置为Date类型。
实例训练:
- 准备数据
(第一个字段为序列号,第二个字段为分词后的结果,格式为csv格式,utf-8编码):
注意:csv文件的第一行为各个字段Attribute的name,当然这个也可以在生成Instances后修改。若没有第一行,会将第一行的instance的内容当作属性名称,这样会导致最后少一个实例。
regId, text
- 110108003557082,销售 计算机 软件 及 辅助 设备 电子产品 未 取得 行政许可 的 项目 除外
110107000885559,技术转让 销售 百货 针纺织品 五金 交电 化工 建筑材料 机械设备 电器设备
110109002641736,汽车配件 计算机 软硬件 及 外围设备 家居装饰 设计 制作 服装 计算机 软硬件
110102000765431,技术开发 动力 技术开发 咨询 销售 机械 电器设备 发电机组 五金交电 橡胶制品
110109004903736,建筑材料 金属材料 除 黄金 化工产品 不含 化学 危险品 及 一类 易制毒 化学品
110108003533570,计算机 软硬件 及 外设 数码 技术开发 技术开发 转让 咨询 服务 培训 技术推广 服务 销售
110101000171791,软件 技术开发 技术咨询 技术培训 技术转让 技术服务 信息 咨询
110108000938562,不含 中介 服务 劳务 服务 销售 五金交电 电子计算机 百货 汽车配件
- 目的:
1. 转换为想要的arff格式文件,并保存
2. 利用Filter中的StringToWordVector对其进行过滤,方便后面根据TFIDF对文件进行分类聚类。