1、arff文件一般格式
arff文件是weka默认数据文件,为了更好地处理csv文件,可以手动给csv文件加文件头把csv转换成arff。arff开头的通用格式示例:
@relation weather %关系名,也就是这个arff文件的名称
@attribute outlook {sunny, overcast, rainy} %标量属性的可选类,{}加,
@attribute temperature numeric
@attribute humidity numeric
@attribute windy {true, false}
@attribute play {yes, no}
@data %表示数据的开始
这里relation,attribute这些关键字在百度上说有的不分大小写都可以用,比如@data和@DATA都可以,但我试了之后还是@data可以通过,所以还是都写小写比较保险。2、属性可以支持的类型
基本属性类型支持如下几种: numeric //表示数据为实数或者整数
<nominal-specification> //表示为名词集合,如头信息中的属性class后的内容,类似枚举
例: @ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica} 注:如果类别名称带有空格,仍需要将之放入引号中。
string //字符串类型
date [<date-format>] //日期类型 格式默认为"yyyy-MM-dd'T'HH:mm:ss"
例: @ATTRIBUTE timestamp DATE "yyyy-MM-dd HH:mm:ss"
"2001-04-03 12:12:12"
注:日期中如果有‘ ’,逗号,右引号等分隔符,每条日期数据都得用双引号引起来weka才能一次读入
relational 关联类型
@ATTRIBUTE rel relational
@ATTRIBUTE rel.1 <tyle>
@ATTRIBUTE rel.2 <type>
@END rel
对于relational类型,数据要当成一列来处理,各个子类型要用回车符隔开,例如:
@attribute att5 relational
@attribute att5.1 numeric
@attribute att5.2 {val5.1,val5.2,val5.3,val5.4,val5.5}
@end att5
则对应的数据应为:'4.141593,val5.3\n5.141593,val5.2'
要都为小写才识别
整理自网上。