一、实验目的熟悉weka基本功能和使用方法
学习对数据集进行分类训练并测试
比较不同分类算法对本实验测试集预测的准确率
二、实验环境平台:Weka3.8
数据集:将Weka的data文件夹下默认数据集vote.arff的前20个实例作为测试集,其余实例作为训练集
三、实验概况观察数据集的属性类别以及实例来确定是否进行过滤处理
利用训练集分别采用C4.5决策树分类器、基于规则的分类器和K最近邻三种算法进行分类训练,并对测试集进行预测
比较三种分类器对本实验数据集分类模型的优劣
四、实验内容
4.1 观察数据集
在weka中打开测试集votetest.arff,观察到数据集共有435个实例,每个实例是一个国会议员的投票信息以及派别,共有17个二元属性,其中一个为类别属性。并且该数据集带有一定的缺失值。国会议员通常按照其党政路线进行投票,本实验通过对议员投票情况(16个属性)对其类别属性进行分类,得到两种派系对政策投票的大致方案。数据集中数据没有与实验无关属性,不进行过滤。
4.2 使用C4.5决策树算法进行分类训练
C4.5决策树算法能够处理具有缺省值的数据,使用信息增益率作为属性选择标准,能对生成树剪枝(参考《数据挖掘与机器学习—WEKA应用技术与实践》)。C4.5在weka中的实现是J48决策树。选择J48进行分类。