使用WEKA进行分类
分类
•分类界面主要分为四部分:分类器选择、测试选项、结果列表、分类器输出。
•分类器:weka里面将分类器分为7大类,包括bayes、functions、lazy、trees等。
functions中包含线性规划、SVM等。
lazy中有常用的IBk(k近邻算法)。
trees中有常用的决策树算法,比如weka中用J48实现C4.5算法
•测试选项常用的有四个:用作训练集、用作测试集、交叉检验(默认为10重交叉检验)、按比例分割(将数据集按一定比例分割为训练集和测试集)。此外还有一些关于分类器输出的选项,比如评价指标、选择将分类器代码以java语言输出等。
•结果列表中展示当前所有的分类结果,右击列表中的某一条结果会出现一些选项,比如visualize tree(可以图形化决策树)、visualize classifier errors(将分类结果以散点图表示,正确分类实例表示为小叉号,错误分类实例表示为空心小方块),还有一些其他选项
•分类器输出:
输出的主要部分有
运行信息输出:显示分类器信息、数据集信息、测试模型
分类器模型输出:
这里的决策树算法会输出决策树的结构、构建模型的时间
分类统计信息输出(各种指标是可选的):样本总数、分类正确样本数及比例、分类错误样本数及比例、平均相对误差、相对绝对误差、均方根误差案例覆盖度等等。
分类详细准确率输出:真阳性率、假阳性率、查准率、查全率、ROC曲线下面积等等
以及可选的混淆矩阵等其他输出
分类--C4.5分类及预测
•打开探索者界面,点击预处理选项卡后,导入标称型天气数据集(weather.arff),进入分类标签页后,选择J48分类器,test options 选择作为训练集后,将生成决策树,相关输出会在classifier output中输出。
•再次选择test options,选择作为测试集策略,然后在more options中找到output predictions 选择Plain Text,将输出测试情况。
分类--线性回归
•在预处理标签页加载cpu数据集,在分类标签页选LinearRegression分类器,选择10重交叉检验,其他默认,点击start,将生成回归方程以及测试结果。
结果显示该回归模型相关系数为0.9012,各项性能指标显示该分类器效果不佳(误差较高,相关系数较小),下面选择M5P分类器。
分类--M5P
M5P是一种决策树方案与线性回归方案的结合体。
分类--两种分类器对比
性能指标
样本分布
weka还可以进行分类可视化过程
比如:加载irri数据集显示C4.5分类器的分类过程。