WEKA学习——CSVLoader 实例训练 和 源码分析

WEKA学习: CSVLoader按照自己需要加载文本数据,并且经StringToWordVector处理,应用于文本的分类和聚类。
摘要由CSDN通过智能技术生成

简介:

Weka支持多种数据导入方式,CSVLoader是能从csv文件加载数据集,也可以保存为arff格式文件。官方介绍文件:Converting CSV to ARFF (
http://weka.wikispaces.com/Converting+CSV+to+ARFF)

CSVLoader加载文件,关键是对文件字段属性名称和属性的类型需要自己定义,这样才能得到满足自己需要的数据集。
CSVLoader通过options设置,可以设置每一列的属性为Nominal,String,Date类型。如"-N 1-2 -S 3 -D 4" Options 就是将属性1-2设置为Nominal类型,属性3设置为String类型,属性4设置为Date类型。

实例训练:

  • 准备数据

(第一个字段为序列号,第二个字段为分词后的结果,格式为csv格式,utf-8编码):
注意:csv文件的第一行为各个字段Attribute的name,当然这个也可以在生成Instances后修改。若没有第一行,会将第一行的instance的内容当作属性名称,这样会导致最后少一个实例。
    
    
    
  1. regId, text
  2. 110108003557082,销售 计算机 软件 辅助 设备 电子产品 取得 行政许可 项目 除外
  3. 110107000885559,技术转让 销售 百货 针纺织品 五金 交电 化工 建筑材料 机械设备 电器设备
  4. 110109002641736,汽车配件 计算机 软硬件 外围设备 家居装饰 设计 制作 服装 计算机 软硬件
  5. 110102000765431,技术开发 动力 技术开发 咨询 销售 机械 电器设备 发电机组 五金交电 橡胶制品
  6. 110109004903736,建筑材料 金属材料 黄金 化工产品 不含 化学 危险品 一类 易制毒 化学品
  7. 110108003533570,计算机 软硬件 外设 数码 技术开发 技术开发 转让 咨询 服务 培训 技术推广 服务 销售
  8. 110101000171791,软件 技术开发 技术咨询 技术培训 技术转让 技术服务 信息 咨询
  9. 110108000938562,不含 中介 服务 劳务 服务 销售 五金交电 电子计算机 百货 汽车配件
 

  • 目的:

1. 转换为想要的arff格式文件,并保存
2. 利用Filter中的StringToWordVector对其进行过滤,方便后面根据TFIDF对文件进行分类聚类。

  • 实验代码:

    
    
    
  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值