weka中文使用说明(二)

2.2.3处理数据

通常对于数据挖掘任务来说,ID这样的信息是无用的,我们将之删除。在区域5勾选属性“id”,并点击“Remove”。将新的数据集保存为bank-data.arff,并用UltraEdit打开这个ARFF文件。我们发现,在属性声明部分,WEKA已经为每个属性选好了合适的类型。
    有些算法只能处理所有的属性都是分类型的情况。这时候我们就需要对数值型的属性进行离散化。在这个数据集中有3个变量是数值型的,分别是age,income和children。 其中children只有4个取值:0,1,2,3。这时我们在UltraEdit中直接修改ARFF文件,把 @attribute children numeric 改为 @attribute children {0,1,2,3} 就可以了。 在Explorer中重新打开bank-data.arff,看看选中children属性后,区域6那里显示的“Type”是否变成Nominal类型。age和income的离散化我们需要借助Weka中名为Discretize的Filter来完成。在区域2中点“Choose”按钮,出现一棵“Filte树”,逐级找到“weka.filters.unsupervised.attribute.Discretize”并选中。若无法关闭这个树,在树之外的地方点击“Explorer”面板即可。 现在“Choose”按钮旁边的文本框应该显示“Discretize -B 10 -M -0.1 -R first-last”。 点击这个文本框会弹出新窗口以修改离散化的参数。我们不打算对所有的属性离散化,只是针对对第1个和第4个属性(见区域5属性名左边的数字),故把attributeIndices右边改成“1,4”。计划把这两个属性都分成3段,于是把bins改成3。其它框里不用更改,关于它们的意思可以点“More”查看。点“OK”回到“Explorer”,可以看到age和income已经被离散化成分类型的属性。若想放弃离散化可以点区域2的“Undo”按钮。 如果对“"(-inf-34.333333]"”这样晦涩的标识不满,我们可以用UltraEdit打开保存后的ARFF文件,把所有的“'\'(-inf-34.333333]\''”替换成“0_34”。其它标识做类似地手动替换。 经过上述操作得到的数据集我们保存为bank-data-final.arff。至此数据预处理结束。

2.2 分类与回归

Weka把分类(Classification)和回归(Regression)都放在“Classify”选项卡中,这是因为在这两个任务中都有一个目标属性(输出变量)。我们希望根据一

  • 2
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值