weka中文使用说明（二）

最新推荐文章于 2023-04-22 19:28:58 发布

Sherry_9003

最新推荐文章于 2023-04-22 19:28:58 发布

阅读量8.2k

点赞数 2

分类专栏： weka 文章标签： weka 使用说明

本文链接：https://blog.csdn.net/u012963068/article/details/41758853

版权

2.2.3处理数据

通常对于数据挖掘任务来说，ID这样的信息是无用的，我们将之删除。在区域5勾选属性“id”，并点击“Remove”。将新的数据集保存为bank-data.arff，并用UltraEdit打开这个ARFF文件。我们发现，在属性声明部分，WEKA已经为每个属性选好了合适的类型。
有些算法只能处理所有的属性都是分类型的情况。这时候我们就需要对数值型的属性进行离散化。在这个数据集中有3个变量是数值型的，分别是age，income和children。其中children只有4个取值：0，1，2，3。这时我们在UltraEdit中直接修改ARFF文件，把 @attribute children numeric 改为 @attribute children {0,1,2,3} 就可以了。在Explorer中重新打开bank-data.arff，看看选中children属性后，区域6那里显示的“Type”是否变成Nominal类型。age和income的离散化我们需要借助Weka中名为Discretize的Filter来完成。在区域2中点“Choose”按钮，出现一棵“Filte树”，逐级找到“weka.filters.unsupervised.attribute.Discretize”并选中。若无法关闭这个树，在树之外的地方点击“Explorer”面板即可。现在“Choose”按钮旁边的文本框应该显示“Discretize -B 10 -M -0.1 -R first-last”。点击这个文本框会弹出新窗口以修改离散化的参数。我们不打算对所有的属性离散化，只是针对对第1个和第4个属性（见区域5属性名左边的数字），故把attributeIndices右边改成“1,4”。计划把这两个属性都分成3段，于是把bins改成3。其它框里不用更改，关于它们的意思可以点“More”查看。点“OK”回到“Explorer”，可以看到age和income已经被离散化成分类型的属性。若想放弃离散化可以点区域2的“Undo”按钮。如果对“"(-inf-34.333333]"”这样晦涩的标识不满，我们可以用UltraEdit打开保存后的ARFF文件，把所有的“'\'(-inf-34.333333]\''”替换成“0_34”。其它标识做类似地手动替换。经过上述操作得到的数据集我们保存为bank-data-final.arff。至此数据预处理结束。

2.2 分类与回归

Weka把分类(Classification)和回归(Regression)都放在“Classify”选项卡中，这是因为在这两个任务中都有一个目标属性（输出变量）。我们希望根据一

最低0.47元/天解锁文章

Sherry_9003

关注

2
点赞
踩
22

收藏

觉得还不错? 一键收藏
2
评论
weka中文使用说明（二）

2.2.3处理数据通常对于数据挖掘任务来说，ID这样的信息是无用的，我们将之删除。在区域5勾选属性“id”，并点击“Remove”。将新的数据集保存为bank-data.arff，并用UltraEdit打开这个ARFF文件。我们发现，在属性声明部分，WEKA已经为每个属性选好了合适的类型。有些算法只能处理所有的属性都是分类型的情况。这时候我们就需要对数值型的属性进行离散化。在这
复制链接

扫一扫