【数据挖掘软件 weka】第二部分评估

最新推荐文章于 2022-09-17 22:59:50 发布

问就ycy

最新推荐文章于 2022-09-17 22:59:50 发布

阅读量1.4k

点赞数 5

文章标签：数据挖掘决策树机器学习

本文链接：https://blog.csdn.net/qq_44836691/article/details/126898618

版权

文章目录

一、构建分类器
二、训练和测试
三、重复训练和测试
四、基线精确度
五、交叉验证
六、交叉验证结果
七、没有UserClassifier分类器的安装方法

一、构建分类器

以系统自带的segment challenge数据集为例，使用树分类器中的用户分类器（如果没有用户分类器看本文最后）。
在Test options中选择使用测试数据集，选择系统自带的segment test。
选择合适的X轴、Y轴属性以达到将各数据区分的效果（如本数据集的X：region-centroid-row；Y：intensity-mean），通过矩形选择红色的部分，并submit。该部分区域消失，获得被调整的图形和第一代决策树。
按此方法循环，最终获得完整的决策树，右键选择接受决策树，可查看构建的决策树评估效果。
在这里插入图片描述

二、训练和测试

继续使用之前的数据集，使用J48决策树分类器，在Test options中选择训练集测试集比例，获得测试结果，同比例再次运行后准确率相同。
如果使用训练集自我评估，准确率较大但不准确，结果过于乐观。

三、重复训练和测试

当训练集测试集比例相同时，之前每次运行获得的结果是相同的，如果想做到随机即运行结果不同，可以设置随机种子，点击More options，更改Random seed的数值后，同比例继续运行，准确率不同。
在这里插入图片描述

多次运行后进行平均值和标准差，即为J48的评估效果。
在这里插入图片描述

四、基线精确度

以系统自带的diabetes数据集为例，使用J48分类器可以得到76%的精确度。使用贝叶斯分类器的NaiveBayes分类器并运行，获得77%的精确度。使用懒惰分类器的精确度为73%，而规则分类器中的PART分类器有74%的精确度。
ZeroR分类器找到可能最大的分类器，一直猜该分类，则该分类器准确率为最大的数目比例。
该分类器的精确度即为基线精确度，可用于评估分类器的精确度，如supermarket数据集中，很多分类器的效果不如基线精确度。
不要盲目的使用weka分析任意的数据，需要知道自己在做什么