第四章（2）分类：模型评估

Lang Grass

于 2018-10-23 15:31:16 发布

阅读量755

点赞数

分类专栏：数据挖掘导论

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013103305/article/details/83307666

版权

本文探讨了模型的过度拟合问题，分析了训练误差和泛化误差的关系，指出噪声、样本缺乏代表性及多重比较过程可能导致过度拟合。提出了泛化误差的估计方法，如奥卡姆剃刀原理、悲观误差评估和最小描述长度原则，并介绍了确认集、交叉验证等技术来处理过度拟合。最后，讨论了评估模型性能的策略，包括保持方法、随机二次抽样和交叉验证。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

模型的过分拟合
1. 训练误差：即再代入误差或表现误差，即训练记录上错误分类的比例
2. 泛化误差：模型在未知记录上的期望误差
3. 一个好的分类模型应该具有低训练和泛化误差，而拟合度过高的模型，泛化误差可能高
4. 模型的训练误差随着模型的复杂度增加而降低，但是检验误差可能很大（检验误差在一定程度上代表着泛化误差），因为树的结点可能拟合了噪音
5. 造成过分拟合的因素
  1. 噪声导致过分拟合：训练集本身的错误导致模型拟合出问题；而例外导致的错误是不可避免的，例外所占的比例也设定了分类模型的最小错误率
  2. 缺乏代表性样本会导致过分拟合
  3. 过分拟合和多重比较过程：决策树中，每一个结点都是最佳的属性划分，且有多个属性可以选择，这就导致了多重比较；当训练记录很少时，找到最佳划分属性的概率就增大，决策树增长到一定深度时，这种情况就会发生；大量的候选属性和少量的训练记录会导致模型的过分拟合
6. 泛化误差估计：模型要有低泛化误差；学习算法只能访问训练数据集，对检验数据集一无所知，也不知道在未知记录上的性能
  1. 使用再代入估计：假设训练数据集可以代表整体数据，即训练误差（再代入误差）=泛化误差；然而这是很差的估计
  2. 结合模型复杂度：两种把模型复杂度和分类模型评估结合在一起的方法
    1. 奥卡姆剃刀：两个具有相同泛化误差的模型，较简单的模型更可取
    2. 悲观误差评估：泛化误差看作模型的悲观误差估计
    3. 最小描述长度原则：信息论方法原则，传输模型信息时&#

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。