4.4模型的过分拟合
分类模型的误差分类:训练误差和泛化误差
过拟合:训练误差小,泛化能力弱
造成过拟合的主要原因:模型复杂度
4.4.1噪声导致的过分拟合
由于拟合了误分类(噪声)的训练记录,导致了泛化误差增大。
4.4.2缺乏代表性样本导致的过分拟合
由于训练样本太少,导致分类模型虽然训练误差虽然小,但泛化误差大,出现过拟合现象。
4.4.3 过分拟合与多重比较的过程
在选择分类属性时,实际是对属性候选集的多重比较奥,选择大于阈值的分类属性,因此多重比较的过程会导致模型的过分拟合。
4.4.4 泛化误差估计
模型复杂度对于过分拟合有影响,但如何确定模型复杂度,确定产生最低泛化误差的模型复杂度,这就需要对模型的泛化误差进行估计,泛化误差的估计方法有:
1.使用再代入估计
主要思想时将训练误差当成泛化误差进行处理,但训练误差并不能准确代表泛化误差。
2.结合模型复杂度
奥卡姆剃刀原则:
将分类模型评估与模型复杂度结合起来的