
Weka是什么?
Weka是一种鸡,叫新西兰秧鸡。这种鸟类天生就不具备飞行的能力,而且只在新西兰被发现,所以叫新西兰秧鸡。另外,英文Weka这个名字的来源也是因为这种鸟的叫声就是这个样子的,weka…weka…weka…,这种鸟类长这个模样:
好了,言归正传,本文所指的Weka其实是一种机器学习的工具包,里面有一系列用于数据挖掘任务的机器学习算法。这些算法可以被直接应用于数据集也可以从你的Java代码中进行调用。Weka包含了数据预处理、分类、回归、聚类、关联规则和可视化的一系列工具。而且也非常适合开发出新的机器学习模式。 官网原文介绍如下:
Weka is a collection of machine learning algorithms for data mining
tasks. The algorithms can either be applied directly to a dataset or
called from your own Java code. Weka contains tools for data
pre-processing, classification, regression, clustering, association
rules, and visualization. It is also well-suited for developing new
machine learning schemes.
Weka数据集格式-ARFF
说到Weka的学习,它的数据集是跑不掉的,Weka处理的数据集通常是存放在一种叫ARFF格式的文件中的。那么,什么是ARFF呢?
ARFF定义
ARFF全称是Attribute-Relation File Format
,属性关系文件格式。ARFF文件是一种描述了一系列具有相同属性的实例的ASCII文本文件。具体一点来说,就是数据集主要是有两部分组成,一部分是属性描述,一部分是数据。属性描述的这一部分也叫头信息,一般是放在数据集开始,而数据部分叫数据信息,一般是跟在头信息的后面。
ARFF头信息
ARFF的头信息包含这个关系的名称,还有一系列属性以及它们的数据类型。以IRIS数据集(https://archive.ics.uci.edu/ml/datasets/iris)为例,标准的IRIS数据集的头信息如下表示:
% source: https://archive.ics.uci.edu/ml/datasets/iris
@RELATION iris
@ATTRIBUTE sepal_length NUMERIC
@ATTRIBUTE sepal_width NUMERIC
@ATTRIBUTE petal_length NUMERIC
@ATTRIBUTE petal_width NUMERIC
@ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica}
注意到了上面的以%
开头的那行了吗?那一句是ARFF文件的注释。在ARFF文件中,注释通常都是以%
开头的。另外@RELATION,@ATTRIBUTE,@DATA
都是大小写不敏感的,都可以使用。
@RELATION声明
通常来说,@RELATION声明应该是在ARFF文件的第一行出现,前面注释啥的不算哈!具体的格式如下:@RELATION <relation-name>
,这里<relation-name>
是一个字符串,表示这个关系的名称。如果这个字符串包含空格的话一定要记得加上空格,否则识别会出现问题的。另外对于名称也有要求,不要使用'{', '}', ','
或者'%
’开头,或者是在ASCII表中低于\u0021[!]
的字符。
@ATTRIBUTE声明
@ATTRIBUTE
声明主要是用来指定属性的数据名称和类型,具体的格式如下:@ATTRIBUTE <attribute-name> <data-type>
,一般来说,<attribute-name>
的要求和上面<relation-name>
的要求是一样的,Weka支持的数据格式<data-type>
主要有以下几种:
- numeric
- integer is treated as numeric
- real is treated as numeric
- < nominal-specification >
- string
- date [< date-format >]
- relational for multi-instance data (for future use)
其它的几个估计大家挺好明白,而< nominal-specification >
和date
估计不太好明白,没关系,我们下面再讲。
Nominal属性
所谓的Nominal属性就是后面列举一系列的值,比如{,,…},IRIS数据集的class属性就是这么定义的:@ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica}。
date属性
date属性的定义比较特殊,因为它还涉及到一个格式的问题,所以我们需要指定相关的格式:@ATTRIBUTE <attribute-name> date [<date-format>]
。日期的格式是比较复杂的,比如yyyy-MM-dd
或者是MM-dd-yyyy
等等,因此需要指定。具体的例子如下:@ATTRIBUTE birthday DATE "yyyy-MM-dd HH:mm:ss"
对应的可参考的数据集如下:
@RELATION Timestamps
@ATTRIBUTE timestamp DATE "yyyy-MM-dd HH:mm:ss"
@DATA
"2001-04-03 12:12:12"
"2001-05-03 12:59:55"
ARFF数据信息
ARFF的数据信息主要是一系列的以,分隔的数据,并且开头的注解是@DATA
,还是以IRIS数据集为例,它的标准数据信息如下表示:
@DATA
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa
5.4,3.9,1.7,0.4,Iris-setosa
4.6,3.4,1.4,0.3,Iris-setosa
5.0,3.4,1.5,0.2,Iris-setosa
4.4,2.9,1.4,0.2,Iris-setosa
4.9,3.1,1.5,0.1,Iris-setosa
5.4,3.7,1.5,0.2,Iris-setosa
4.8,3.4,1.6,0.2,Iris-setosa
4.8,3.0,1.4,0.1,Iris-setosa
@DATA声明
ARFF文件的数据部分都是跟在@DATA
声明后面的。关于数据部分没有什么过多注意的地方,主要是注意数据缺失的情况,比如:
@DATA
4.4,?,1.5,?,Iris-setosa
可以看到,第二个数据和第四个数据缺失,缺失的数据在ARFF文件中统一使用?问号代替。
注:
有时数据中有数据比较稀疏,或者要使用one-hot编码时,可能会采用另一种方法记录数据data,如下图所示:
第一列代表第几个属性(从0开始),第二列代表对应的属性值。如果该属性不在.arff文件中则默认其属性值为0!(注意不是缺失值)
总结
关于ARFF文件的相关理解就是这些,重点是需要知道Weka需要处理什么样的数据文件,以及如何理解并产生这些数据文件。后面会陆续推出一些算法的实际学习过程,都是偏向实战型的,后面会在会用算法解决实际问题的基础上再加深理论上的理解。不过目前如果想要学习理论的同学可以去看看机器学习算法研究相关书籍哈。
参考:
https://qinjiangbo.com/dataset-format-of-weka-ARFF.html