【数据挖掘软件 weka】第三部分 简单分类器


一、简单第一

OneR算法规则

OneR是One Rule的意思,即一个规则,只看某事物的一个特征,然后来预测该事物的类别(选择一个错误率低的作为特征)。
在这里插入图片描述

OneR分类器位于规则分类器中,在ZeroR分类器上面。


二、过拟合

打开天气数据集后,使用OneR分类器进行分类,再remove数据集outlook的属性,此时决策树只有一个分支。对OneR属性进行更改,将minBucketSize的值从默认的6改成1,最终的决策树分支较多,模型出现过拟合。
在这里插入图片描述


三、概率的使用

朴素贝叶斯公式

在这里插入图片描述
以系统自带的天气数据集为例,点击Filter,使用Bayes分类器下的NaiveBayes方法并运行。

零数次问题:为了避免其他属性携带的信息被训练集中未出现的属性值抹去,在估计概率值时经常要进行平滑,常用拉普拉斯修正,即分子加1,分母加类别数。


四、决策树

介绍了决策树的构造方法(信息熵),为理论知识,没有对软件的应用内容。


五、修剪决策树

为了避免模型的过拟合,增强其泛化能力,可以对决策树剪枝。剪枝又包括了前剪枝和后剪枝,通常后剪枝保留更多的分支,泛化性能也较强。

构建决策树时应避免使用ID、索引值等作为特征,其也不具备泛化能力。

决策树属性中confidenceFactor指用于修剪的信心因数(较小的值导致更多的修建)。

有时修剪一个内部节点并将它的子树提升一个层次,即子树提升(subtreeRaising)。提升子树实际上增加了算法的复杂度,所以关闭它可以缩短运行时间。


六、最近邻

导入系统自带的glasses数据集,使用懒惰分类器IBK,得到70%的准确率。

更改其参数k,即knn中的k值,设为5后结果为67.8%,k为20时再次运行,结果为65%。

对于较大的训练数据集和较大的k,使用最近邻可以得到较好的分类结果。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值