一、简单第一
OneR算法规则
OneR是One Rule的意思,即一个规则,只看某事物的一个特征,然后来预测该事物的类别(选择一个错误率低的作为特征)。
OneR分类器位于规则分类器中,在ZeroR分类器上面。
二、过拟合
打开天气数据集后,使用OneR分类器进行分类,再remove数据集outlook的属性,此时决策树只有一个分支。对OneR属性进行更改,将minBucketSize的值从默认的6改成1,最终的决策树分支较多,模型出现过拟合。
三、概率的使用
朴素贝叶斯公式
以系统自带的天气数据集为例,点击Filter,使用Bayes分类器下的NaiveBayes方法并运行。
零数次问题:为了避免其他属性携带的信息被训练集中未出现的属性值抹去,在估计概率值时经常要进行平滑,常用拉普拉斯修正,即分子加1,分母加类别数。
四、决策树
介绍了决策树的构造方法(信息熵),为理论知识,没有对软件的应用内容。
五、修剪决策树
为了避免模型的过拟合,增强其泛化能力,可以对决策树剪枝。剪枝又包括了前剪枝和后剪枝,通常后剪枝保留更多的分支,泛化性能也较强。
构建决策树时应避免使用ID、索引值等作为特征,其也不具备泛化能力。
决策树属性中confidenceFactor指用于修剪的信心因数(较小的值导致更多的修建)。
有时修剪一个内部节点并将它的子树提升一个层次,即子树提升(subtreeRaising)。提升子树实际上增加了算法的复杂度,所以关闭它可以缩短运行时间。
六、最近邻
导入系统自带的glasses数据集,使用懒惰分类器IBK,得到70%的准确率。
更改其参数k,即knn中的k值,设为5后结果为67.8%,k为20时再次运行,结果为65%。
对于较大的训练数据集和较大的k,使用最近邻可以得到较好的分类结果。