机器学习算法-决策树的剪枝

最新推荐文章于 2024-08-11 01:07:31 发布

Fying2016

最新推荐文章于 2024-08-11 01:07:31 发布

阅读量808

点赞数

分类专栏：机器学习文章标签：机器学习决策树剪枝

本文链接：https://blog.csdn.net/fengying2016/article/details/77278451

版权

机器学习专栏收录该内容

11 篇文章 3 订阅

订阅专栏

本文摘录自《统计学习方法》-李航，第5.4结-决策树的剪枝

剪枝的定义：将已生成的树进行简化的过程称为剪枝。
剪枝的目的：决策树往往对训练数据的分类很准确，但是对未知的测试数据的分类却没有那么准确，即出现过拟合现象。
决策树的剪枝往往通过极小化决策树整体的损失函数（loss function）或代价函数（cost function）来实现。设树T 的结点个数为|T |，t是T的叶结点，该叶结点上有 $N_{t}$ 个样本点，其中k类的样本点有 $N_{tk}$ 个，k=1,2，…，K， $H_{t}(T)$ 为叶结点t上的经验熵， $\alpha \geqslant 0$ 为参数，
则决策树损失的函数可以定义为：
$C α (T) = \sum t = 1 | T | N t H t (T) + α | T |$ $C_{\alpha }(T)=\sum_{t=1}^{|T|}N_{t}H_{t}(T)+\alpha |T|$
其中经验熵为：
$H t (T) = - \sum k N t k N t l o g N t k N t$ $H_{t}(T)=-\sum_{k}\frac{N_{tk}}{N_{t}}log\frac{N_{tk}}{N_{t}}$
在损失函数中，将 $C_{\alpha }(T)$ 的第一项记为 $C(T)$ ，这时有
$C α (T) = C (T) + α | T |$ $C_{\alpha }(T)=C(T)+\alpha |T|$
$C(T)$ 表示模型对训练数据的预测误差，即模型和训练数据的拟合程度， $|T|$ 表示模型复杂度，参数 $\alpha \geqslant 0$ 控制两者之间的影响。
剪枝，就是当 $\alpha$ 确定时，选择损失函数最小的模型，即损失函数最小的子树。可以看出，决策树生成只考虑了通过提高信息增益对训练数据进行更好的拟合。而决策树剪枝通过优化损失函数还考虑了减小模型复杂度。决策树生成学习局部的模型，而决策树剪枝学习整体的模型。

这里的经验熵反应了一个叶结点中的分类结果的混乱程度，经验熵越大，说明该叶结点所对应的分类结果越混乱，也就是说分类结果中包含了较多的类别，表明该分支的分类效果较差。所以，损失函数越大，说明模型的分类效果越差。决策树的剪枝通常分为两种，即预剪枝、后剪枝。预剪枝是在决策树生成过程中，对树进行剪枝，提前结束树的分支生长。后剪枝是在决策树生长完成之后，对树进行剪枝，得到简化版的决策树。

下面的算法，是后剪枝的实现步骤

输入：生成算法产生的整个树 $T$ ，参数α
输出：修剪后的子树 $T_{α}$
1. 计算每个结点的经验熵.
2. 递归地从树的叶结点向上回缩 .
　　设一组叶结点回缩到父结点之前与之后的整体树分别为 $T_{B}$ 和 $T_{A}$ ，其对应的损失函数值分别是 $C_{α}(T_{B})$ 与 $C_{α}(T_{A})$ ，如果 $C_{α}(T_{A})≤C_{α}(T_{B})$ ，即如果进行剪枝，损失函数变小，就进行剪枝，将父结点变为新的叶结点 .
3. 返回(2)，直至不能继续为止，得到损失函数最小的子树 $T_{A}$ .