weka机器学习-03-探索者（Explorer）界面及数据预处理

最新推荐文章于 2024-01-14 14:47:45 发布

旋转梅花桩

最新推荐文章于 2024-01-14 14:47:45 发布

阅读量3.3k

点赞数 1

分类专栏： weka机器学习与数据挖掘文章标签：机器学习

本文链接：https://blog.csdn.net/fxqwgdddg123/article/details/109489881

版权

weka机器学习与数据挖掘专栏收录该内容

6 篇文章 8 订阅

订阅专栏

点击主界面的Explorer按钮后，显示界面Explorer界面：
在这里插入图片描述
初始打开时，只有Preprocess标签可以用

1.各个标签用途

（1）Preprocess（预处理）：选择数据集，以不同方式对其进行修改。
（2）Classify（分类）：训练用于分类或回归的学习方案，并对其进行评估。
（3）Cluster（聚类）：学习数据集聚类方案。
（4）Associate（关联）：学习数据关联规则，并对齐进行评估。
（5）Select attributes（选择属性）：选择数据集中预测效果最好的部分属性。
（6）Visualize（可视化）：查看不同的二维数据散点图，并与其进行互动。
在探索者界面的下部，有状态栏和日志按钮，状态栏可以让用户了解到现在进行到哪一步。还可以右击鼠标来显示内存信息（Memory information）以及运行垃圾回收器（run garbage collector）以清理内存。
内存信息中三个数值分别为空闲内存/全部内存/最大内存，单位是字节。
单击日志（Log）按钮，会打开可以滚动的日志窗口。
日志按钮右侧的小鸟，如果没有处理过程在运行，小鸟会坐下来打个盹。“x”符号右边的数字显示目前有多少个正在进行处理的进程，当系统空闲时，该数字为零，数字会随着正在进行处理进程数的增加而增加。当启动处理进程时小鸟会站起来不停走动。如果小鸟长时间站着不动，说明weka出现运行错误，此时用户需要关闭并重新启动探索者界面。

2.图像输出

weka中很多图像都可以保存为图像文件，保存方法：在按住Alt键和Shift键的同时，在要保存的图形上单击，启动保存文件对话框，进行图像文件的保存。

3.预处理

Preprocess标签页可以从文件、URL或数据库中加载数据集，并且根据应用要求和领域知识过滤掉不需要进行处理或不符合要求的数据。

3.1 加载数据
Open file按钮用于启动”打开“对话框，打开本地数据文件。Open URL按钮要求用户提供一个URL地址，使用HTTP协议从网络位置下载数据文件。Open DB按钮用于从数据库中读取数据，支持所有能够用JDBC驱动程序读取的数据库。
Open file按钮可以读取多种数据格式，包括.arff，.data，.names，.csv，.json，.libsvm，.m，.dat，.xrff，.gz。
Save按钮，可以将已加载的数据保存为Weka支持的文件格式。
由于存在多种数据格式，Weka提供了使用工具类进行转换，即转换器（converters），位于weka.core.converters包中。按照功能的不同转换器分为加载器和保存器，前者的java类名以Loader结束后者以Saver结束。
3.2当前关系
在这里插入图片描述
加载数据后，Preprocess标签页会在Current relation选项组中显示当前数据集的一些总结信息。
Relation（关系）中显示关系名称，该该名称由加载的文件给定；
Attributes（属性）栏显示数据集中的属性（特征）个数；
Instances（实例）栏显示数据集中的实例（数据点/记录）个数；
Sun of weights（权重和）栏显示全部实例的权重和。
3.3属性处理
在这里插入图片描述
Attributes选项组如上，表格三列多行，No列表示属性编号，第二类为复选框，Name列为属性名与数据文件的属性声明一致。
上方All按钮表示全选；
None按钮表示全不选；
Invert按钮表示反选，即选中未被选中的取消已经选中的；
Pattern按钮使用正则表达式指定要选中的属性，例如"._id"选择满足属性名称以_id结束的全部属性，在此例子中,"._th"选择1，2，3，4号属性。
属性被选中后可以按Remove按钮移除选中的属性，但是只是将内存中的这些属性去除了，并未去除数据文件中的这些属性，去除后可以点击Undo按钮恢复。
选中某个属性后，Attributes选项组右侧的Selected attribute（已选择属性）选项组中将显示选中属性的一些信息。
在这里插入图片描述

Name栏显示属性名称，Type栏显示属性的类型
Missing（缺失）栏显示数据集中该属性不存在或未指定的实例的数量及百分比；
Distinct（不同）栏显示该属性取不同值的数量；
Unique（唯一）栏显示没有任何其他实例拥有该属性值的数量及百分比。
Selected attribute选项组的下部有一个统计表格，显示该属性的更多信息，根据属性类型的不同，表格会有所差别。
若该属性为数值型，表格会显示数据分布的四种统计描述，即Minimum（最小值）、Maximum（最大值）、Mean（平均值）和StdDev（Standard Deviation，标准差）。
若该属性为标称型，表格中会显示，No（编号），表示属性的全部可能取值；Label（标签），表示属性值名称，Count（数量），表示属性的全部可能取值，Weight（权重），表示拥有该属性的实例权重。

在统计表格的下方，有一个彩色直方图。
在这里插入图片描述
直方图上方的下拉框用于选择类别属性，（即作为标志分类类别的属性），此处为class属性，图中三中颜色表示鸢尾花的三中品种。横坐标表示当前属性（sepallength）的取值。
单击右侧的Visualize All按钮，会弹出一个单独的窗口，显示所有属性的直方图。
3.4过滤器
在这里插入图片描述
Filter选项组中有一个Choose（选择）按钮，单击该按钮可以选择一个过滤器。
选中过滤器后，单击Choose按钮右侧的文本框，弹出通用对象编辑器对话框。

About选项组简要说明所选择的过滤器的功能；
单击右侧More按钮，会弹出Information对话框，显示过滤器的简介和不同选项的功能。
在这里插入图片描述
单击Capabilities按钮，会弹出Information about Capabilities对话框，列出所选择对象能够处理的类别类型和属性类型。
下方Open按钮，用于打开所保存的对象选项设置；
Save按钮用于保存对象选项位置；
OK按钮用于正确完成设置后，返回探索者界面；
Cancel按钮用于取消所做的修改，回退到原来的位置。
右击Choose按钮右侧的文本框（或者按住Alt键和Shift键的同时单击文本框），弹出的快捷菜单中有四个菜单项：
Show properties（显示属性）：会弹出通用对象编辑器对话框，允许用户修改设置，功能与单击文本框一样。
Copy configuration to clipboard（复制设置到剪贴板）：将当前的设置字符串（文本框中的内容）复制。
Enter configuration（输入设置）：让用户直接输入设置字符串，格式为类名称后接类能够支持的选项。
Edit configuration（编辑设置）
设置好一个过滤器之后，单击文本框右侧的Apply按钮，应用过滤，Preprocess标签页会显示转换后的数据信息。如果对结果不满意，单击Undo按钮撤销转换。还可以单击Edit按钮，在数据集编辑器里手动修改数据如果满意修改结果单击Save按钮，将当前关系以文件格式进行保存。

3.5过滤算法介绍

Weka过滤器分为有监督过滤器和无监督过滤器。这两类又分别分为属性过滤器和实例过滤器。
3.5.1无监督属性过滤器
（1）添加和删除属性
Add过滤器：在一个给定的位置插入一个属性，对于所有实例该属性值声明为缺失。
Copy过滤器：复制现有的属性，这样可以在实验时保护这些属性，以免属性值为过滤器所覆盖。使用表达式可以一起复制多个属性。如：“1-3”复制前三个，“first-3，5，9-last"。可以进行反转，反选选中除选定属性以外的所有属性。
AddID过滤器：在用户指定索引的属性列表中插入一个数字标识符属性。标识符常用于跟踪某个实例，尤其是在已经通过某种方式处理过数据集之后。
Remove过滤器：删除数据集中指定范围的属性。
RemoveType过滤器：删除指定类型的所有属性。
RemoveUseless过滤器：删除常量属性以及几乎与所有实例的值都不相同的标称型属性。
InterquartileRange过滤器：添加新属性，以指示实例的值是否可以视为离群值或极端值。离群值和极端值定义为基于属性值的第25个和第75个百分位数之间的差。如果指定的极端值系数和百分位距的乘积高于第75个百分位数，或低于第25个百分位数，该值就标记为极端值或离群值。此过滤器忽略类别属性。
AddCluster过滤器：将一种聚类算法应用于数据，再进行过滤。
AddExpression过滤器：将一个数学函数应用于数值型属性而生成一个新属性。属性可以通过索引加前缀a确定
MathExpression过滤器：根据给定的表达式修改数字型属性，能够用于多个属性。只是在原地修改属性并不创建新的属性。且表达式中不能引用其他属性的值。

3.6使用

3.6.1使用数据集编辑器
Preprocess标签页中Edit按钮，填出Viewer对话框。
在这里插入图片描述
列出了数据集中的各个属性及实例。
右下角Add instance按钮用于添加一个实例；
Undo按钮：撤销所做的操作；
OK按钮：提交所做的修改并关闭窗口；
Cancel：取消所做的修改并关闭窗口；
3.6.2删除属性
在Filter栏里点击Choose按钮，选择Remove过滤器，单击文本框打开通用对象编辑器对话框设置参数。
在这里插入图片描述
将attributeIndices设置为2，点击OK,Choose按钮后的文本框中显示”Remove -R 2“意义为从数据集中删除第二个属性。单击文本框后的Apply按钮，可以看到数据集中第二个属性已经被删掉。
（仅仅要去掉某个属性的话，在Attributes选项组中选中属性点击Remove按钮删掉即可）上述所有操作影响的都是内存中的数据，只有点击Save按钮后才回对数据文件产生影响。
3.6.3添加属性
选择AddUserFields过滤器，单击文本框在这里插入图片描述
打击New按钮，设置Attribute name（属性名称）为mode，Attribute type（属性类型）为nominal，不设置Date format（日期格式）和Attribute value（属性值）两个选项。点击OK，和Apply按钮。
由于新增的属性没有值，使用AddValues过滤器。
在这里插入图片描述
此时点击Edit按钮，可以看到新增的属性已经有值可以选择。
由于新增的属性不太适合weka的使用习惯，可以用Reorder过滤器更改一下第5个属性和第6个属性的位置。

将值设为1，2，3，4，6，5即可。
3.6.4离散化
离散化技术包括无监督离散化和有监督离散化，前者不需要也不关注类别属性值，后者在创建间隔时考虑实例的类别属性值。常用的有等宽和等频离散化两种方法。默认方法为等宽。
使用Discretize进行离散化，全部选项参数默认不变时为无监督等宽离散化，修改useEqualFrequency选项改为True时为等频离散化。
原图：
在这里插入图片描述
等宽离散化：

等频离散化：

结论：一般情况下，等频离散化后直方图大致等高。但如果有很多实例的值都完全相等，等频离散化也没法做到“等频”。