决策树的拟合度优化

本文探讨了决策树在模型选择中面临的欠拟合与过拟合问题,解释了过拟合和欠拟合的概念,并通过图示说明。文章强调了防止过拟合的重要性,介绍了通过交叉验证判断过拟合的方法。最后,详细阐述了决策树剪枝的原理,包括预剪枝和后剪枝策略,以提升决策树的泛化能力。
摘要由CSDN通过智能技术生成

欠拟合与过拟合

当假设空间中含有不同复杂度的模型时,就要面临模型选择(model selection)的问题。我们希望获得的是在新样本上能表现得很好的学习器。为了达到这个目的,我们应该从训练样本中尽可能学到适用于所有潜在样本的"普遍规律",我们认为假设空间存在这种"真"模型,那么所选择的模型应该逼近真模型的。
拟合度可简单理解为模型对于数据集背后客观规律的掌握程度,模型对于给定数据集如果拟合度较差,则对规律的捕捉不完全,用作分类和预测时可能准确率不高,换句话说,当模型把训练样本学得"太好"了的时候,很可能已经把训练样本自身的一些特点当作了所有潜在样本的普遍性质,这时候所选的模型的复杂度往往会比真模型更高,这样就会导致泛化性能下降。这种现象称为过拟合(overfitting)。可以说,模型选择旨在避免过拟合并提高模型的预测能力。
与过拟合相对的是欠拟合(underfitting),是指模型学习能力低下,导致对训练样本的一般性质尚未学好。
图中虚线表示不可约误差,对应所有方法的最低测试均方误差;
无论什么样的数据和方法,自由度上升,训练均方误差将降低;
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值