【数据挖掘软件 weka】第二部分 评估


一、构建分类器

以系统自带的segment challenge数据集为例,使用树分类器中的用户分类器(如果没有用户分类器看本文最后)。
在Test options中选择使用测试数据集,选择系统自带的segment test。
选择合适的X轴、Y轴属性以达到将各数据区分的效果(如本数据集的X:region-centroid-row;Y:intensity-mean),通过矩形选择红色的部分,并submit。该部分区域消失,获得被调整的图形和第一代决策树。
按此方法循环,最终获得完整的决策树,右键选择接受决策树,可查看构建的决策树评估效果。
在这里插入图片描述


二、训练和测试

继续使用之前的数据集,使用J48决策树分类器,在Test options中选择训练集测试集比例,获得测试结果,同比例再次运行后准确率相同
如果使用训练集自我评估,准确率较大但不准确,结果过于乐观。


三、重复训练和测试

当训练集测试集比例相同时,之前每次运行获得的结果是相同的,如果想做到随机即运行结果不同,可以设置随机种子,点击More options,更改Random seed的数值后,同比例继续运行,准确率不同。
在这里插入图片描述

多次运行后进行平均值和标准差,即为J48的评估效果。
在这里插入图片描述


四、基线精确度

以系统自带的diabetes数据集为例,使用J48分类器可以得到76%的精确度。使用贝叶斯分类器的NaiveBayes分类器并运行,获得77%的精确度。使用懒惰分类器的精确度为73%,而规则分类器中的PART分类器有74%的精确度。
ZeroR分类器找到可能最大的分类器,一直猜该分类,则该分类器准确率为最大的数目比例。
该分类器的精确度即为基线精确度,可用于评估分类器的精确度,如supermarket数据集中,很多分类器的效果不如基线精确度。
不要盲目的使用weka分析任意的数据,需要知道自己在做什么

五、交叉验证

将数据集分为十份,九份作为训练集,一份作为测试集,重复十次,即十折交叉验证(针对数据集少的情况)。


六、交叉验证结果

在分类界面的Cross-validation中对Folds的数值进行修改,选择k折交叉验证的取值。


七、没有UserClassifier分类器的安装方法

关闭除weka首页外的窗口,点击weka首页的tools,点击package manager,搜索并点击左上方的安装即可。

在这里插入图片描述


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值