【数据挖掘软件 weka】第三部分简单分类器

最新推荐文章于 2023-11-30 15:15:04 发布

问就ycy

最新推荐文章于 2023-11-30 15:15:04 发布

阅读量1.2k

点赞数 1

文章标签：数据挖掘决策树机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44836691/article/details/126905028

版权

文章目录

一、简单第一
二、过拟合
三、概率的使用
四、决策树
五、修剪决策树
六、最近邻

一、简单第一

OneR算法规则

OneR是One Rule的意思，即一个规则，只看某事物的一个特征，然后来预测该事物的类别（选择一个错误率低的作为特征）。
在这里插入图片描述

OneR分类器位于规则分类器中，在ZeroR分类器上面。

二、过拟合

打开天气数据集后，使用OneR分类器进行分类，再remove数据集outlook的属性，此时决策树只有一个分支。对OneR属性进行更改，将minBucketSize的值从默认的6改成1，最终的决策树分支较多，模型出现过拟合。
在这里插入图片描述

三、概率的使用

朴素贝叶斯公式

在这里插入图片描述
以系统自带的天气数据集为例，点击Filter，使用Bayes分类器下的NaiveBayes方法并运行。

零数次问题：为了避免其他属性携带的信息被训练集中未出现的属性值抹去，在估计概率值时经常要进行平滑，常用拉普拉斯修正，即分子加1，分母加类别数。

四、决策树

介绍了决策树的构造方法（信息熵），为理论知识，没有对软件的应用内容。

五、修剪决策树

为了避免模型的过拟合，增强其泛化能力，可以对决策树剪枝。剪枝又包括了前剪枝和后剪枝，通常后剪枝保留更多的分支，泛化性能也较强。

构建决策树时应避免使用ID、索引值等作为特征，其也不具备泛化能力。

决策树属性中confidenceFactor指用于修剪的信心因数（较小的值导致更多的修建）。

有时修剪一个内部节点并将它的子树提升一个层次，即子树提升（subtreeRaising）。提升子树实际上增加了算法的复杂度，所以关闭它可以缩短运行时间。

六、最近邻

导入系统自带的glasses数据集，使用懒惰分类器IBK，得到70%的准确率。

更改其参数k，即knn中的k值，设为5后结果为67.8%，k为20时再次运行，结果为65%。

对于较大的训练数据集和较大的k，使用最近邻可以得到较好的分类结果。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。