模型的过拟合
分类模型的误差大致分为两张:训练误差(再代入误差或表现误差),泛化误差
模型拟合不足:决策树很小,训练和检验误差都很大
模型过分拟合:树的模型变得太大,即使训练误差还在继续降低,但是检验误差开始增大,这种现象叫做过分拟合
奥卡姆剃刀:给定两个具有相同泛化误差的模型,较简单的模型比较复杂的模型更可取
悲观误差评估:第一种方法明确使用训练误差与模型复杂度罚项的和计算泛华误差。结果泛华误差可以看做模型的悲观误差估计。设n是结点t分类的训练记录数,e是被误分类的记录数。决策树t 的悲观误差估计e 可以用下式计算
保持方法:
在保持(Holdout)方法中,将被标记的原始数据划分成两个不想交的集合,分别成为训练集和检验集。在训练数据集上归纳分类模型,在检验集上评估模型的性能。
随机二次抽样:
多次重复保持方法来改进对分类器性能的估计,称作随机二次抽样
交叉验证:
假设把数据分为相同大小的两个子集,首先,我们选择一个自己做训练集,而另一个做检验集,然后交换两个集合的角色,原先做训练集的现在做检验集,反之亦然,这种方法叫做二折交叉验证
K折交叉验证:把数据分为大小相同的K份,在每次运行,选择其中一份作检验集,而其余的全做为训练集,该过程重复K次,使得每份数据都用于检验恰好一次。