CART决策树剪枝个人理解

最新推荐文章于 2024-08-02 20:10:59 发布

dzzhouhahaha

最新推荐文章于 2024-08-02 20:10:59 发布

阅读量554

点赞数

分类专栏：机器学习决策树 CART树的剪枝文章标签： CART树剪枝

本文链接：https://blog.csdn.net/weixin_39814560/article/details/88944158

版权

机器学习同时被 3 个专栏收录

8 篇文章 0 订阅

订阅专栏

决策树

1 篇文章 0 订阅

订阅专栏

CART树的剪枝

1 篇文章 0 订阅

订阅专栏

@CART决策树剪枝个人理解

本文是针对CART树的个人理解

在看统计学习方法关于CART树的剪枝是，感觉书上讲得很迷惑，因此基于其他博客以及书上内容得出自己的理解。
首先确定CART树的损失函数：C_∂(T) = C(T)+∂|T|；式中C(T)表示预测的精度，即子树T的错误数量/测试集数量，|T|表示子树T的叶子节点数量；C_∂(T)表示子树T的整体损失。
C_∂(t) = C(t)+∂ 表示以树t为根节点的子树T被剪枝之后的损失函数，树t被剪枝之后只剩一个叶节点，因此，为这个。
C_∂(Tt) = C(Tt)+∂|Tt| 表示以树t为根节点的子树Tt未被剪枝时的损失函数
对于CART树而言，当∂很小时，趋近于0，则可认为树的复杂度对整体损失函数无影响，因此为保证树的精度，采取不剪枝的操作，即这里可认为：C_∂(Tt) ＜C_∂(t)
对于CART树而言，当∂很大时，趋近于正无穷，则可认为树的复杂度对整体损失函数而言占主要影响，因此为保证树的精度，采取剪枝的操作，即这里可认为：C_∂(Tt) ＞C∂(t)
所以：
在∂由0—>∞的变化时，对于某一个以t为根节点的子树Tt总有一个∂会使C_∂(Tt) =C_∂(t) ；现在，就求使C_∂(Tt) =C_∂(t)的 ∂
C(t)+∂ = C(T_t)+∂|T_t| ==》∂ =(C(t)−C(T_t))/(|T|−1)
即：对于以t为根节点的子树Tt，当∂＞(C(t)−C(T_t))/(|T|−1) 时，就可进行对以t为根节点的子树的剪枝了。即将子节点t变为其所含实例最多的类别。或者对于回归树而言，变为在t时刻求均值；对其求误差，也是求取其对应的均方差。
下一步：剪枝之后的子树向上递归对于下一个节点，分析其C_∂(t)与C_∂(T_t) 的大小关系。
因此对于训练集生成的CART树，其剪枝的思想是：
初始化子树T0，找到CART树最下面的以t为根节点的子树Tt，判断其是否需要剪枝
剪枝后的整体损失函数：C_∂(t) = C(t)+∂
剪枝前的整体损失函数：C_∂(T_t) = C(T_t)+∂|Tt|
随着∂的0—>∞的变化过程，有C_∂(T_t)＜ C∂(t) ====》C_∂(T_t)= C_∂(t) ====》C_∂(T_t)＞C_∂(t)的变化。
令g(t)=(C(t)−C(Tt))/(|T|−1)，并将g(t)赋值给∂1，
所以，当∂＞∂₁时，则可认为对以t为根节点的子树T_t进行剪枝，生成新的决策树T₁。并又重新观察剪枝后的CART树，对于新的以t为根节点的子树T_t，又需要判断剪枝前与剪枝后的整体损失函数之间的大小关系。
对于新的以t为根节点的子树T_t，随着∂的∂₁—>∞的变化过程，存在C_∂(T_t)＜ C_∂(t) ====》C_∂(T_t)= C_∂(t) ====》C_∂(T_t)＞C_∂(t)的变化。
令g(t)=(C(t)−C(Tt))/(|T|−1)，并将g(t)赋值给∂₂。且由于随着∂的增加，C_∂(T_t)与C_∂(t)都在不断增加。所以：在[∂₁，∂₂）之间，有∂₁是对应着最小的整体损失函数。即T₁是该区间内最优的CART子树。
当∂=∂₂时，在T₁的基础上最新的以t为根节点的子树T_t而言，此时剪枝与不剪枝的整体损失函数相同，因此可以把它归为剪枝一类。当∂＞∂₂时，判定为对T1进行剪枝，得到新的CART子树T₂
随着∂的∂₂—>∞的变化过程，对于T₂而言，又存在一个新的最小的以t为根节点的子树T_t，分析其剪枝前与剪枝后的整体损失函数：又有：C_∂(T_t)＜ C_∂(t) ====》C_∂(T_t)= C_∂(t) ====》C_∂(T_t)＞C_∂(t)的变化。
因此，对该新的t又基于∂₃=(C(t)−C(T_t))/(|T|−1) 可以得到T₃
在判定T₃之前，在[∂₂，∂₃）之间，对于T₂而言，是需要剪枝的，对于T₃而言，不需要剪枝，此时T₃可视为等于T₂。C_∂(t)与 C_∂(T_t)都是随着∂的增大而增大；因此可认为T₂是[∂₂，∂₃）之间最优的子树。
随着∂的逐渐增加，CART决策树不断对最低的子节点判断是否需要剪枝。因此可以确定在不同区间[∂_i，∂_i+1）内的最优子树T_i，对于最后：原始的CART树最终变为只有根节点的单树T_n，没有分叉，此时对应的区间为[∂_n，∞）。
上述得到了一系列的子树[T₀，T₁，……，T_n]，选择所有子树中整体损失函数最低的子树，其对应的∂_i因此也可以确定。