前面记录了特征值的选取,现在我们就来说一下剪枝。
决策树的剪枝
在决策树创建时,由于数据中的噪声和离群点,许多分枝反映的是训练数据中的异常,剪枝方法处理这种过分拟合数据的问题。
有常用的两种剪枝方法:先剪枝和后剪枝。
先剪枝:通过提前停止树的构建(例如,通过决定在给定的结点不再分裂或划分训练元组的子集)而对树"剪枝"。一旦停止,结点就成为树叶。
后剪枝:由"完全生长"的树剪去子树,通过删除结点的分枝并使用树叶替换它而剪掉给定节点上的子树。该树叶的类标号用子树中最频繁的类标记。
决策树的剪枝往往通过极小化决策树整体的损失函数或代价函数来实现。设树的叶结点的个数为,是树的叶结点,该叶结点有个样本点,其中类的样本点有个,,为叶结点上的经验熵,则决策树的损失函数可以定义为:
(损失函数=拟合度+a*模型复杂度)
其中表示模型对训练数据的预测误差,即模型与训练数据的拟合程度。