决策树后剪枝算法（一）代价复杂度剪枝CPP

BigBoboboy

已于 2022-09-17 11:59:25 修改

阅读量4.3k

点赞数 4

分类专栏：机器学习数据挖掘文章标签：决策树算法剪枝 python

于 2022-09-14 01:18:47 首次发布

本文链接：https://blog.csdn.net/San_pi_sama/article/details/126844566

版权

机器学习同时被 2 个专栏收录

6 篇文章

订阅专栏

数据挖掘

5 篇文章

订阅专栏

本文详细介绍了决策树剪枝算法的四种常见方法：代价复杂度剪枝(CCP)、错误率降低剪枝(REP)、悲观错误剪枝(PEP)和最小错误剪枝(MEP)，包括原理、计算复杂度、误差估计和剪枝策略，为理解决策树过拟合后的优化提供深入解析。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

决策树后剪枝算法（一）代价复杂度剪枝CPP
决策树后剪枝算法（二）错误率降低剪枝REP
决策树后剪枝算法（三）悲观错误剪枝PEP
决策树后剪枝算法（四）最小错误剪枝MEP

剪枝，是一个“用准确性换取简单性”的思想。它允许决策树对训练集过拟合，再通过删除对泛化精度无贡献的子分支，从而修剪出一颗较小的树。以下列出几种较常见的后剪枝算法，及其机制对比：

	CCP	REP	PEP	MEP
剪枝方式	自底向上	自底向上	自顶向下	自底向上
计算复杂度	$O(n^2)$	$O (n)$	$O (n)$	$O (n)$
误差估计	标准误差	剪枝集上误差	连续性矫正	概率估计
是否需要额外剪枝集	否	是	否	否

（1）代价复杂度剪枝（CCP）

CCP算法为子树 $T_t$ 定义了代价和复杂度，以及一个衡量代价与复杂度之间关系的参数 $\alpha$ 。大致流程为，从决策树 $T_0$ 开始不断剪枝直到 $T_0$ 的根节点，形成一个子树序列{ $T_0, T_1,...,T_n$ }; 然后经过交叉验证法在独立验证集上逐个测试评估, 从而选出最优子树。

（1.1）数学推导

评价标准:
$R_\alpha(T) = R(T) + \alpha|f(T)|\\ R(T)=\sum_{t\in f(T)}r(t).p(t)=\sum_{t\in f(T)}R(t)$
解读：

$R_{\alpha}(T)$ 即为一棵树好坏的评价标准。
$R (T)$ 是决策树训练集误差(代价)， $∣ f (T) ∣$ 表示决策树的叶子节点数量(复杂度)。
$\alpha$ 是正则化参数，用以权衡训练数据的拟合程度与模型复杂度。
$\sum_{t\in f(T)}R(t)$ 表示每个叶子节点所产生的错误分类的误差和。
$p (t)$ 为叶子节点权重（ $=\frac{n(t)}{n}$ ）， $r (t)$ 为叶子结点误分类率（ $=\frac{error(t)}{n(t)}$ ）。

进一步推导，对于一个固定的 $\alpha$ 值, 一定存在一颗使得 $C_{\alpha}(T)$ 最小的子树 $T_{\alpha}$ , 即在固定 $\alpha$ 下的最优剪枝策略。现在考虑 $\alpha$ 变化，考虑极端情况: 当 $\alpha=0$ 时, 有 $R_\alpha(T) = R(T)$ , 即不考虑复杂度, 易知完整树即为最优；当 $\alpha\rightarrow\infty$ ，复杂度权重无穷大，易知单节点树为最优。及 $\alpha$ 从 $0\rightarrow\infty$ ， $\alpha$ 对应的最优树 $T_{\alpha}$ 从繁变简。

再结合 $B re iman$ 等人的证明: 将 $\alpha$ 从小增大, $0=\alpha_0<\alpha_1<...<\alpha_n<\infty$ , 产生一系列的区间 $a_i, a_{i+1})$ ， $i = 0, 1, 2, ..., n$ ; 剪枝得到的子树序列对应着区间 $\alpha\in{[a_i, a_{i+1})},~i=0,1,2...n$ 的最优子树序列{ $T_0, T_1, ...,T_n$ }，序列中的子树是嵌套的, 即 $T_0$ 爷爷/ $T_1$ 父亲/ $T_2$ 儿子/ $T_3$ 孙子…以此类推。

那么如何选取每一阶段的 $\alpha$ , 这里引入剪枝整体损失函数减少程度指标 $g(t)=\frac{R(t)-R(T_t)}{|T_t|-1}$ ，其具体含义如下：
$当R_\alpha(T_t)=R_\alpha(t)时,即剪枝后误差增长率为0\\ R_\alpha(T_t)=R_\alpha(T_t)+|f(T_t)|\\ R_\alpha(t)=R_\alpha(t)+1\\ 解得\alpha’=\frac{R(t)-R(T_t)}{|T_t|-1},即剪枝临界点(必定剪枝)$
且可证得 $g (t)$ 与误差增长率成正比:
$KaTeX parse error: Expected 'EOF', got '&' at position 75: …T-T_t)|-|f(T)|)&̲\\ =[R(else)+R(…$
根据以上推导结论, 对于特定 $\alpha$ 区间，要求最优 $T_\alpha$ 需寻求误差增长率最小, 即 $g (t)$ 最小。故我们所需要做的, 就是每轮迭代中遍历所有非叶子节点， $T_{i-1}$ 剪枝 $g (t)$ 最小的节点生成下一颗最优子树 $T_i$ ，从而生成子树序列。

最后基于独立验证集, 对子树序列 $T_0, T_1, ...,T_n$ 中的平方误差或基尼系数逐个计算, 再作评估选择即可。

（1.2）算法流程

输入：CART算法生成的决策树 $T_0$
输出：最优决策树 $T_\alpha$
（1）设 $k=0, T=T_0$
（2）设 $\alpha=+\infin$
（3）自下而上地对各内部结点 $t$ 计算 $R(T_t)$ ， $f(T_t)|$ 以及:

$g(t)=\frac{R(t)-R(T_t)}{|T_t|-1}\\ \alpha=min(\alpha, g(t))$

（4）对 $g(t)=\alpha$ 的内部结点 $t$ 进行剪枝, 并对叶结点构成的树，回到步骤（2）；否则令 $T_k=T_n$ 。
（7）采用交叉验证法在子树序列 $T_0, T_1, ...,T_n$ 中选取最优子树 $T_\alpha$ （分类：基尼系数 \ 回归：平均误差）。

（1.3）例题计算

#### (一)原始决策树

#### (二)第一次迭代

INPUT: $\alpha=0,~ T^1={t_1,t_2,t_3}$

OUTPUT: $\alpha^2=\min{g_1(t)}=\frac{1}{8},~t=t_2或t_3$

#### (三)第二次迭代

INPUT： $alpha^2=\frac{1}{8},T^2={t_1, t_2}$

OUTPUT： $\alpha^3=\min{g_2(t)=\frac{1}{8}}, t=t_2$

在这里插入图片描述

#### (四)第三次迭代
INPUT: $T^3={t1}$

OUTPUT: $\alpha^4=g_3(t_1)=\frac{\frac{8}{16}-\frac{4}{16}}{2-1}=\frac{1}{4}$

即子树序列 $T_0, T_1, ...,T_n$ 及其参数 $\alpha$ 的计算, 接下来进行交叉验证即可选择最优子树即可。

（1.4）代码实现

手写实现 + sklearn实现

链接：https://pan.baidu.com/s/1gskUIAHfv9lZ6Mtq7r7I1Q 
提取码：wo7m

代码参考:http://www.hzcourse.com/web/refbook/detail/9970/226

——————————————————————————————————————————-—————————————————

参考资料：

[1] 现代决策树模型及其编程实践黄智濒编著

[2] 统计学习方法(第二版) 李航著

[3] https://blog.csdn.net/WANGWUSHAN/article/details/108556371