简介
决策树是与有监督学习中的常用方法。决策树的算法多见于分类问题中,即我们常说的分类树(Classification Tree);少数情况下,决策树也可以用于连续问题,即回归树(Regression Tree)。若构建决策树的自变量过多,会产生高维度、过拟合等问题,因此,需要在全树的基础上进行剪枝,保留最有效的自变量,删除不那么重要的自变量。这一过程,就叫剪枝。
一句话解释版本:
剪枝分为前剪枝与后剪枝,通过留出法在测试集上比对剪枝前后的效果来判定是否剪枝。
数据分析与挖掘体系位置
决策树是有监督学习中的一种模型。所以在数据分析与数据挖掘中的位置如下图所示。
剪枝的目的
对决策树进行剪枝的目的是为了防止过拟合(Overfitting)问题。
过拟合就是值学习器把样本学的太好了,把一些只属于训练集的特性也当作了一般性规律处理。在决策树中,过多的分支会使模型将一些个性化特征视为一般性特征,降低了泛化能力。因此就需要我们通过剪枝减少分支(自变量)个数。
剪枝的方法
剪枝的方法分为:预剪枝(pre-pruning)与后剪枝(post-pruning)。<