Weka入门教程（3）

最新推荐文章于 2023-04-22 19:28:58 发布

allenshi_szl

最新推荐文章于 2023-04-22 19:28:58 发布

阅读量2.3k

点赞数

分类专栏：数据挖掘文章标签：算法 classification class list attributes output

本文链接：https://blog.csdn.net/allenshi_szl/article/details/5989316

版权

转自：http://bbs.wekacn.org/viewtopic.php?t=9

3. 分类与回归
背景知识
WEKA把分类(Classification)和回归(Regression)都放在“Classify”选项卡中，这是有原因的。
在这两个任务中，都有一个目标属性（输出变量）。我们希望根据一个样本(WEKA中称作实例)的一组特征（输入变量），对目标进行预测。为了实现这一目的，我们需要有一个训练数据集，这个数据集中每个实例的输入和输出都是已知的。观察训练集中的实例，可以建立起预测的模型。有了这个模型，我们就可以新的输出未知的实例进行预测了。衡量模型的好坏就在于预测的准确程度。
在WEKA中，待预测的目标（输出）被称作Class属性，这应该是来自分类任务的“类”。一般的，若Class属性是分类型时我们的任务才叫分类，Class属性是数值型时我们的任务叫回归。

选择算法
这一节中，我们使用C4.5决策树算法对bank-data建立起分类模型。
我们来看原来的“bank-data.csv ” 文件。“ID”属性肯定是不需要的。由于C4.5算法可以处理数值型的属性，我们不用像前面用关联规则那样把每个变量都离散化成分类型。尽管如此，我们还是把“Children”属性转换成分类型的两个值“YES”和“NO”。另外，我们的训练集仅取原来数据集实例的一半；而从另外一半中抽出若干条作为待预测的实例，它们的“pep”属性都设为缺失值。经过了这些处理的训练集数据在这里下载；待预测集数据在这里下载。

我们用“Explorer”打开训练集“bank.arff”，观察一下它是不是按照前面的要求处理好了。切换到“Classify”选项卡，点击 “Choose”按钮后可以看到很多分类或者回归的算法分门别类的列在一个树型框里。3.5版的WEKA中，树型框下方有一个“Filter...”按钮，点击可以根据数据集的特性过滤掉不合适的算法。我们数据集的输入属性中有“Binary”型