weka数据格式

weka能处理的最好的数据格式是*.arff,arff(attribute relation file format),属性关系文件格式。

该格式的文件分为两部分:头信息和数据信息,头信息包括relation和attribute两部分,数据信息只有data。

@relation person

@attribute name string
@attribute age numeric
@attribute sex {male,female}
@attribute birthday date"yyyy-MM-dd HH-mm-ss"

@data
xiaoming,12,male,"2012-12-02 00:00:00"
xiaohong,11,male,"2013-03-04 00:00:00"

这是一个简单的atrr格式的文件。

其中date必须指定格式如 date"yyyy-MM-dd HH-mm-ss",  名字或者数据里有空必须用引号括起来,单引号双引号都可以。

weka中一行称为一个实例(instance),相当于一个样本或者一条记录,竖行称为一个属性,相当于一个变量或者一个字段,整个表格称为数据集,展现了属性之间的关系。


属性名:关系名称在文件的第一有效行来定义,格式为@relation <relation-name>,relation-name是一个字符串,如果有空格必须用引号括起来。

属性声明:用@attribute开头的语句表示,格式为@attribute <relation-name> <datatype>,weka支持的数据格式有四种,string,numeric,nominal和date[data-format],

数据信息:@data标记,单独占一行,剩下的是各个实例的数据。每个实例占一行,实例的各个属性用逗号分开,如果某个属性的值缺失,用?号表示,逗号隔开,且?不能缺失。如xiaoming,?,male,?


稀疏矩阵:有些实例的属性值是0,且大量的值为0,如购物篮属性值,这样的数据用稀疏矩阵存更好一些。注意:是0值不是缺省值

例如:0,2,0,0,0,0,1,2,3    - >  {1 2,6 1,7 2,8 3}    注意:括号必须有,且计数从0开始



数据准备:

我们拿到的数据大多数是 csv ,txt或者excel格式的,为了更好的得到实验效果,我们需要将csv转换为arff的,怎么做呢?

excel转换为csv直接右键另存为就可以了,txt也可以直接以逗号的形式保存为csv。

由于csv第一行没有属性,所以我们需要手动的在第一行添加属性。如下图:


将csv转换为arff:

前提:.在第一行加上属性

1.直接用weka打开csv,保存为arff格式。

2.或者调用weka的CLI,weka.core.converters.CSVLoader filename.csv > filename01.arff

就可以转换成功了,路径可以是绝对路径。



  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

早退的程序员

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值