weka进行数据预处理

最新推荐文章于 2025-04-08 11:34:17 发布

csucoderlee

最新推荐文章于 2025-04-08 11:34:17 发布

阅读量2.7w

点赞数 9

分类专栏：数据挖掘weka工具使用文章标签： weka 数据挖掘数据预处理 explorer界面操作 filter

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/u010372981/article/details/44901875

版权

数据挖掘weka工具使用专栏收录该内容

3 篇文章

订阅专栏

本文详细介绍了如何使用Weka软件处理ARFF和CSV格式的数据文件，包括装入数据、选择属性、过滤属性、离散化以及保存为ARFF文件的过程。通过实例演示了如何将温度和湿度属性离散化，并提供了最终转换后的文件样例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

装入数据

打开weka，点击进入explorer界面，在preprocesstag下，点击open file 按钮装入ARFF数据文件。

Weka同时也具有读入“.csv”格式文件的能力，在做数据挖掘中，很多时候数据是存储在excel的电子表格中，打开Excel文件，从File（文件）下拉菜单下选择Save As（另存为），在弹出的对话框中，最下边会有Save As type（保存为）选项，下拉列表中选择CSV文件，给文件命名，点击保存就可以了，这样就可以直接在weka当中打开.csv文件了。

同样在weka中打开，csv文件之后，也可以saveas（另存为），保存该文件为arff数据文件类型

选择或者过滤属性

删除属性

在对数据进行预处理的过程中很多时候，需要删除某一些不要的属性（attribute），在Attributes panel（学过javaswing的会知道panel指代的是哪部分组件）中操作就可以了，勾选属性前面的对号，然后点击remove按钮：

离散化

有些技术，如关联规则挖掘，只能在分类数据上进行，这就要求在数值或连续属性上进行离散化。

在我们打开的weather.arff数据中，temperature一个连续属性，下面我们就进行一次具体的操作，点击filter（过滤器）panel的choose按钮，会出现下图：

选择weka.filter.unsupervised.attribute.Descretize,之后在choose按钮后面的文本框中出现Discretize–B 10-M -1.0 –R first-last这样的内容，点击该文本框会出现DiscretizeFilter对话框：

在attributeIndices文本框中，我们填写temperature对应的属性编号2，在bins文本框中，我们输入3作为箱数，也就是分为3个范围，我们进行简单的分箱，所以其他不管，点击ok按钮：

这时候回到explorer界面，我们点击Filterpanel中的Apply（应用）按钮，在Attribute panel下，选中temperature属性，观察右侧窗口：

观察发现temperature属性，被分为3个范围，变成离散的变量，这时候如果点击save as选项，保存arff数据文件，在文本编辑器中打开，就会发现temperature属性在@data下每一行的instance中，都会被修改成如上图区间显示（-inf-71]，[71-78]，[78-inf）: