Weka学习2-数据预处理

Weka学习2-数据预处理

数据预处理是所有数据挖掘算法的前提基础。拿到一个数据源,不太可能直接用于数据挖掘算法。

为了既不破坏业务数据的数据结构,又能为数据挖掘算法所使用,就需要进行数据预处理的过程,将数据源进行一定的处理,得到数据挖掘算法的输入数据。

在上一篇,讲到数据加载。

加载数据后,就进入数据预(preprocess)处理页面,个部分使用说明如下

(1)     Filter(过滤器)

提供了多种数据筛选方式。

以离散化为例,简要说明该过程

点击“choose”按钮,出现过滤器结构树。选择“unsupervised”-“Discretize”即可

选中后,点击右边的Discretize区域,出现选择框,对参数进行设置。

attributeIndices:选择数据源的某几个属性进行离散化。比如1,2。或者first-last

bins:对离散化的区间数量进行规定

点击“apply”按钮,开始离散化。

(2)Attributes(属性)

可以查看某一个具体属性的内容

点击下面的“Remove”按钮,可对属性进行删除。

选中某一个属性,在右边的selectedattribute一栏可以查看其说明。包括类型,数据内容等

离散化前数据类型是数值型(numeric),离散化操作后的属性就变成了分类型(nominal)。

(3)保存

点击上方的“save”按钮,即可将预处理的结果保存为arff文件。这是weka分析数据的输入格式。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值