关于 Pentaho Weka 的基本使用
一、 关于 PentahoWeka 的使用过程中的基本术语介绍
1、 实例(Instance):表格里的一个横行称作一个实例,相当于统计学中的一个样本,或者数据库中的一条记录。
2、 属性(Attrbute):竖行的属性(Attrbute),相当于统计学中的一个变量,或者数据库中的一个字段。
3、 关系(Relation): 类似于表格,或者叫数据集,在WEKA看来,呈现了属性之间的一种关系。
二、 关于WEKA存储数据的格式是ARFF(Attribute-Relation File Format)文件:
这是一种ASCII文本文件。需要注意的是,在Windows记事本打开这个文件时,可能会因为回车符定义不一致而导致分行不正常。推荐使用UltraEdit这样的字符编辑软件察看ARFF文件的内容。
1、 识别ARFF文件的重要依据是分行,因此不能在这种文件里随意的断行。空行(或全是空格的行)将被忽略。 以“%”开始的行是注释,WEKA将忽略这些行。
2、 如果你看到的“weather.arff”文件多了或少了些“%”开始的行,是没有影响的。 除去注释后,整个ARFF文件可以分为两个部分。
A、 第一部分给出了头信息(Head information),包括了对关系的声明和对属性的声明。
B、 第二部分给出了数据信息(Data information),即数据集中给出的数据。从@data”标记开始,后面的就是数据信息了。
三、 关于WEKA的支持的数据类型(datatype)——WEKA支持的数据类型 datatype 有四种,分别如下:
1、 numeric 数值型
2、 nominal-specification 分类(nominal)型
3、 string 字符串型
4、 date 日期和时间型
在WEKA 3.5版中增加了一种属性类型叫做Relational,有了这种类型我们可以像关系型数据库那样处理多个维度了
关于Pentaho Weka 的的界面的基本介绍:
1.Explorer:An environment for exploring data with WEKA (the rest ofthis documentation deals with this application in more detail).
data exploration/visualization, model construction and export, preliminary evaluation
2.Experimenter:An environment for performing experiments and conduct-ing statistical tests between learning schemes.
large-scale algorithm comparison with statistical tests for significant differences in performance
3.KnowledgeFlow:This environment supports essentially the same func-tions as the Explorer but with a drag-and-drop interface. One advantage is that it supports incremental learning.process model view of data mining, export of DM process
4.SimpleCLI:Provides a simple command-line interface that allows direct execution of WEKA commands for operating systems that do not provide their own command line interface.
备注:
关于什么是CLI的解释——命令行界面(Command Line Interface,简写:CLI)是在图形用户界面得到普及之前使用最为广泛的用户界面,它通常不支持鼠标,用户通过键盘输入指令,计算机接收到指令后,予以执行。也有人称之为字符用户界面(CUI)。