在WEKA的Classify选项板中,我们可以对处理好的数据进行分类
这个过程其实也挺简单的,由于weka 已经将机器学习的各种方法收集起来了(SVM需要手动下载jar包),所以我们要做的就是 打开数据集,然后 选择分类算法,就可以看到结果了,我们还是以 weather.numeric.arff 为例,我们先开始打开了这个数据集(由名字可以看出,这是一个通过收集天气各方面信息,来预测是否应该出去玩的数据集,且所有的属性值均为numeric型),如下图所示:
1) 点击 Classify 分类面板,在 Classifier 中选择需要的机器学习的算法,我们以决策树(J48)为例
2) 在 Test options中选择常用的 cross-validation 交叉验证,Folds 选择10 或者其他的数字(注意,你的Folds必须小于或等于你的数据实例的数量),见图9
3) 由于weka默认你的最后1个属性为tag,因此我们直接点击 Start,就可以在右侧的 Classifier output中得到我们的结果了,见图10,11
图9. 分类界面
图10. 分类结果第一部分
图12. 分类结果第二部分
观察结果:
1. 我们由Run Information 可以得知我们分类的基本模式,比如,选择的是 J48决策树算法,数据集名字是 Weather,有14个实例,包含5种属性,选择的是10折交叉验证。
2. 由Summary可知我们的分类结果,通常我们比较关注的也就是 模型的度量,一般是 Accuracy, Precision, Recall, 和 F-measure 等,在图12中可以清晰得出。