Weka学习2-数据预处理
数据预处理是所有数据挖掘算法的前提基础。拿到一个数据源,不太可能直接用于数据挖掘算法。
为了既不破坏业务数据的数据结构,又能为数据挖掘算法所使用,就需要进行数据预处理的过程,将数据源进行一定的处理,得到数据挖掘算法的输入数据。
在上一篇,讲到数据加载。
加载数据后,就进入数据预(preprocess)处理页面,个部分使用说明如下
(1) Filter(过滤器)
提供了多种数据筛选方式。
以离散化为例,简要说明该过程
点击“choose”按钮,出现过滤器结构树。选择“unsupervised”-“Discretize”即可
选中后,点击右边的Discretize区域,出现选择框,对参数进行设置。
attributeIndices:选择数据源的某几个属性进行离散化。比如1,2。或者first-last
bins:对离散化的区间数量进行规定
点击“apply”按钮,开始离散化。
(2)Attributes(属性)
可以查看某一个具体属性的内容
点击下面的“Remove”按钮,可对属性进行删除。
选中某一个属性,在右边的selectedattribute一栏可以查看其说明。包括类型,数据内容等
离散化前数据类型是数值型(numeric),离散化操作后的属性就变成了分类型(nominal)。
(3)保存
点击上方的“save”按钮,即可将预处理的结果保存为arff文件。这是weka分析数据的输入格式。