weka分类器怎么设置样本类别_WEKA在机器学习、数据挖掘领域的应用(二)

使用WEKA进行分类

分类

•分类界面主要分为四部分:分类器选择、测试选项、结果列表、分类器输出。

9a55b0a58aaf03dda255247bd4aadfbc.png

713648acd8ecf6a5e88b694c585ff0cc.png

•分类器:weka里面将分类器分为7大类,包括bayes、functions、lazy、trees等。

functions中包含线性规划、SVM等。

lazy中有常用的IBk(k近邻算法)。

trees中有常用的决策树算法,比如weka中用J48实现C4.5算法

•测试选项常用的有四个:用作训练集、用作测试集、交叉检验(默认为10重交叉检验)、按比例分割(将数据集按一定比例分割为训练集和测试集)。此外还有一些关于分类器输出的选项,比如评价指标、选择将分类器代码以java语言输出等。

•结果列表中展示当前所有的分类结果,右击列表中的某一条结果会出现一些选项,比如visualize tree(可以图形化决策树)、visualize classifier errors(将分类结果以散点图表示,正确分类实例表示为小叉号,错误分类实例表示为空心小方块),还有一些其他选项

3de5681e74deb008a501d02354786f00.png

c3ea31c407ff973be7ea48dbaada2d32.png

•分类器输出:

输出的主要部分有

运行信息输出:显示分类器信息、数据集信息、测试模型

6d93100a446713ca2084ee7a733b347c.png

55a0f39cc08aa65d93678961b1057b88.png

分类器模型输出:

这里的决策树算法会输出决策树的结构、构建模型的时间

281cc7c425d943fedb1af20ee4d3cc94.png

分类统计信息输出(各种指标是可选的):样本总数、分类正确样本数及比例、分类错误样本数及比例、平均相对误差、相对绝对误差、均方根误差案例覆盖度等等。

f0b82617f346b84bb52fdefe42f1e5ce.png

分类详细准确率输出:真阳性率、假阳性率、查准率、查全率、ROC曲线下面积等等

34c30778593c3a5f49be9801aafdeee2.png

以及可选的混淆矩阵等其他输出

9dc11ecd68adcd54eabd753ec256c72a.png

分类--C4.5分类及预测

•打开探索者界面,点击预处理选项卡后,导入标称型天气数据集(weather.arff),进入分类标签页后,选择J48分类器,test options 选择作为训练集后,将生成决策树,相关输出会在classifier output中输出。

•再次选择test options,选择作为测试集策略,然后在more options中找到output predictions 选择Plain Text,将输出测试情况。

cae42f751a730d43f6e6a59d1346a1a4.png

9f430fdc450288162a2fef8849665325.png
使用训练集得到的决策树

0b28dad51789490428170f21f8ddc39f.png
使用测试集得到的分类结果

分类--线性回归

•在预处理标签页加载cpu数据集,在分类标签页选LinearRegression分类器,选择10重交叉检验,其他默认,点击start,将生成回归方程以及测试结果。

47f0cd16ace4e9bba0c830029ff5b4c7.png
训练得到的回归方程

e9940742bc7e7ed64b183c82ec78f056.png

结果显示该回归模型相关系数为0.9012,各项性能指标显示该分类器效果不佳(误差较高,相关系数较小),下面选择M5P分类器。

分类--M5P

M5P是一种决策树方案与线性回归方案的结合体。

0e023a2d3e112965915d140d23237366.png
M5P分类器生成的决策树模型

0d07c98a1520f0fdd4f01b62f1a8cd76.png
决策树的5个叶子结点对应的回归方程

分类--两种分类器对比

性能指标

80c7f8bb4b643f325d7c831fdc492774.png

a03ab3a88388ca4541991316e17da699.png

样本分布

9cfb148fbf541132d1a2275e0341acfa.png
LinearRegression分类器

605c9f54f6521bae2a272cff694c8c8f.png
M5P分类器

weka还可以进行分类可视化过程

比如:加载irri数据集显示C4.5分类器的分类过程。

bb65332197eb275b3672d614c9876cdf.png
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值