四 分类:基本概念,决策树与模型评估2

本文探讨了分类模型中的过拟合问题,包括由噪声和样本不足导致的过拟合,以及处理决策树过拟合的剪枝方法。同时介绍了评估分类器性能的保持方法、交叉验证和自助法,并讨论了比较不同分类器性能的统计检验方法。
摘要由CSDN通过智能技术生成

4.4模型的过分拟合

分类模型的误差分类:训练误差和泛化误差
过拟合:训练误差小,泛化能力弱
造成过拟合的主要原因:模型复杂度
在这里插入图片描述

4.4.1噪声导致的过分拟合

由于拟合了误分类(噪声)的训练记录,导致了泛化误差增大。

4.4.2缺乏代表性样本导致的过分拟合

由于训练样本太少,导致分类模型虽然训练误差虽然小,但泛化误差大,出现过拟合现象。

4.4.3 过分拟合与多重比较的过程

在选择分类属性时,实际是对属性候选集的多重比较奥,选择大于阈值的分类属性,因此多重比较的过程会导致模型的过分拟合。

4.4.4 泛化误差估计

模型复杂度对于过分拟合有影响,但如何确定模型复杂度,确定产生最低泛化误差的模型复杂度,这就需要对模型的泛化误差进行估计,泛化误差的估计方法有:
1.使用再代入估计
主要思想时将训练误差当成泛化误差进行处理,但训练误差并不能准确代表泛化误差。
2.结合模型复杂度
奥卡姆剃刀原则:
在这里插入图片描述
将分类模型评估与模型复杂度结合起来的

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值