决策树的拟合度优化

最新推荐文章于 2022-11-16 11:04:40 发布

Zen of Data Analysis

最新推荐文章于 2022-11-16 11:04:40 发布

阅读量1.2k

点赞数

分类专栏：算法机器学习统计文章标签：算法机器学习统计

本文链接：https://blog.csdn.net/gracejpw/article/details/102087098

版权

本文探讨了决策树在模型选择中面临的欠拟合与过拟合问题，解释了过拟合和欠拟合的概念，并通过图示说明。文章强调了防止过拟合的重要性，介绍了通过交叉验证判断过拟合的方法。最后，详细阐述了决策树剪枝的原理，包括预剪枝和后剪枝策略，以提升决策树的泛化能力。

摘要由CSDN通过智能技术生成

欠拟合与过拟合

当假设空间中含有不同复杂度的模型时，就要面临模型选择（model selection）的问题。我们希望获得的是在新样本上能表现得很好的学习器。为了达到这个目的，我们应该从训练样本中尽可能学到适用于所有潜在样本的"普遍规律"，我们认为假设空间存在这种"真"模型，那么所选择的模型应该逼近真模型的。
拟合度可简单理解为模型对于数据集背后客观规律的掌握程度，模型对于给定数据集如果拟合度较差，则对规律的捕捉不完全，用作分类和预测时可能准确率不高，换句话说，当模型把训练样本学得"太好"了的时候，很可能已经把训练样本自身的一些特点当作了所有潜在样本的普遍性质，这时候所选的模型的复杂度往往会比真模型更高，这样就会导致泛化性能下降。这种现象称为过拟合（overfitting）。可以说，模型选择旨在避免过拟合并提高模型的预测能力。
与过拟合相对的是欠拟合（underfitting），是指模型学习能力低下，导致对训练样本的一般性质尚未学好。
图中虚线表示不可约误差，对应所有方法的最低测试均方误差；
无论什么样的数据和方法，自由度上升，训练均方误差将降低；
在这里插入图片描述