- 模型的过分拟合
- 训练误差:即再代入误差或表现误差,即训练记录上错误分类的比例
- 泛化误差:模型在未知记录上的期望误差
- 一个好的分类模型应该具有低训练和泛化误差,而拟合度过高的模型,泛化误差可能高
- 模型的训练误差随着模型的复杂度增加而降低,但是检验误差可能很大(检验误差在一定程度上代表着泛化误差),因为树的结点可能拟合了噪音
- 造成过分拟合的因素
- 噪声导致过分拟合:训练集本身的错误导致模型拟合出问题;而例外导致的错误是不可避免的,例外所占的比例也设定了分类模型的最小错误率
- 缺乏代表性样本会导致过分拟合
- 过分拟合和多重比较过程:决策树中,每一个结点都是最佳的属性划分,且有多个属性可以选择,这就导致了多重比较;当训练记录很少时,找到最佳划分属性的概率就增大,决策树增长到一定深度时,这种情况就会发生;大量的候选属性和少量的训练记录会导致模型的过分拟合
- 泛化误差估计:模型要有低泛化误差;学习算法只能访问训练数据集,对检验数据集一无所知,也不知道在未知记录上的性能
- 使用再代入估计:假设训练数据集可以代表整体数据,即训练误差(再代入误差)=泛化误差;然而这是很差的估计
- 结合模型复杂度:两种把模型复杂度和分类模型评估结合在一起的方法
- 奥卡姆剃刀:两个具有相同泛化误差的模型,较简单的模型更可取
- 悲观误差评估:泛化误差看作模型的悲观误差估计
- 最小描述长度原则:信息论方法原则,传输模型信息时&#
第四章(2) 分类:模型评估
最新推荐文章于 2022-06-19 18:15:07 发布
本文探讨了模型的过度拟合问题,分析了训练误差和泛化误差的关系,指出噪声、样本缺乏代表性及多重比较过程可能导致过度拟合。提出了泛化误差的估计方法,如奥卡姆剃刀原理、悲观误差评估和最小描述长度原则,并介绍了确认集、交叉验证等技术来处理过度拟合。最后,讨论了评估模型性能的策略,包括保持方法、随机二次抽样和交叉验证。
摘要由CSDN通过智能技术生成