CART树及其剪枝学习笔记

最新推荐文章于 2024-05-14 17:05:40 发布

赏花赏月赏秋香

最新推荐文章于 2024-05-14 17:05:40 发布

阅读量192

点赞数 2

分类专栏：决策树文章标签：机器学习算法决策树

本文链接：https://blog.csdn.net/qq_42308441/article/details/109905182

版权

决策树专栏收录该内容

3 篇文章 0 订阅

订阅专栏

CART树：分类与回归树

算法由两部分组成：

决策树生成
决策树剪枝

CART算法：

CART算法采用一种二分递归分割的技术，算法总是将当前样本集分割为两个字样本集。
生成的决策树的每个非叶结点都只有两个分枝，因此CART算法生成的决策树是结构简洁的二叉树。
CART算法适用于样本特征的取值为是或非的场景。
剪枝过程特别重要，所以在最优决策树生成过程中占有重要地位。有研究表明，剪枝过程的重要性要比树生成过程更为重要。

回归树的生成（平方误差）：

设 $Y$ 是连续变量，给定训练数据集： $D=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \ldots,\left(x_{N}, y_{N}\right)\right\}$
假设已将输入空间划分为M个单元 $R_{1}, R_{2} . . R m$ ，并且每个单元 $R_{m}$ 上有一个固定的输出 $C_{m}$ ，回归树表示为： $f(x)=\sum_{m=1}^{M} c_{m} I\left(x \in R_{m}\right)$
平方误差来表示预测误差，用平方误差最小准则求解每个单元上的最优输出值： $min\sum_{x_{i} \in R_{m}}\left(y_{i}-f\left(x_{i}\right)\right)^{2}$
$R_{m}$ 上的 $C_{m}$ 的最优值： $\hat{c}_{m}=\operatorname{ave}\left(y_{i} \mid x_{i} \in R_{m}\right)$

输入空间的划分：

启发式：选择第 $j$ 维变量 $x^{(j)}$ 和它取的值 $s$ ，作为切分变量和切分点，定义两个区域： $R_{1}(j, s)=\left\{x \mid x^{(j)} \leq s\right\}$ 和 $R_{2}(j, s)=\left\{x \mid x^{(j)}>s\right\}$
然后寻找最优切分变量和切分点： $\min _{j, s}\left[\min _{c_{1}} \sum_{x_{i} \in R_{1}(j, s)}\left(y_{i}-c_{1}\right)^{2}+\min _{c_{2}} \sum_{x_{i} \in R_{2}(j, s)}\left(y_{i}-c_{2}\right)^{2}\right]$
再对两个区域重复上述划分，直到满足停止条件。

分类树的生成（基尼指数）：

基尼指数（类似于信息熵）：分类问题中，假设有k个类，样本点属于k的概率 $P_{k}$ ，则概率分布的基尼指数： $\operatorname{Gini}(p)=\sum_{k=1}^{K} p_{k}\left(1-p_{k}\right)=1-\sum_{k=1}^{K} p_{k}^{2}$

在特征A的条件下，集合D的基尼指数： $\operatorname{Gini}(D, A)=\frac{\left|D_{1}\right|}{|D|} \operatorname{Gini}\left(D_{1}\right)+\frac{\left|D_{2}\right|}{|D|} \operatorname{Gini}\left(D_{2}\right)$
下图展示出基尼指数可以描述分类误差率

在这里插入图片描述

CART分类树生成算法：

输入：训练数据集D

输出：CART分类树

从根节点开始，递归对每个结点操作

1.设结点数据集为D，对每个特征A，对其每个值a，根据样本点对A = a的测试为是或否，将D分为 $D_{1}$ ， $D_{2}$ ，计算 $A = a$ 的基尼指数。

2.在所有的特征A以及所有可能的切分点a中，选择基尼指数最小的特征和切分点，将数据集分配到两个子结点中。

3.对两个子结点递归调用1，2步骤。

4.生成CART树。

CART树剪枝：

剪枝过程中，计算子树的损失函数：

$C_{\alpha}(T)=C(T)+\alpha|T|$ 其中 $C (T)$ 为预测误差损失（拟合性）， $\alpha|T|$ 为模型复杂度损失（泛化性）。

对固定的 $a$ 一定存在损失函数最小子树，表示为 $T_{a}$ ，当 $a$ 变大时，最优子树 $T_{a}$ 偏小， $a = 0$ 时，整体树最优， $a$ 趋于无穷大，单结点最优。

将a从小增大， $0=\alpha_{0}<\alpha_{1}<\ldots<\alpha_{n}<+\infty$ ，最优子树序列 $\left\{T_{0}, T_{1}, \ldots, T_{n}\right\}$ ，再用交叉验证选择最优子树。

CART剪枝算法：

具体：从 $T_{0}$ 开始剪枝，以 $t$ 为单结点树的损失函数： $C_{\alpha}(t)=C(t)+\alpha$

以t为根节点的子树 $T_{t}$ 的损失函数： $C_{\alpha}\left(T_{t}\right)=C\left(T_{t}\right)+\alpha\left|T_{t}\right|$

当 $\alpha=0$ 及 $\alpha$ 很小时， $C_{\alpha}\left(T_{t}\right)<C_{\alpha}(t)$

不断增大 $\alpha$ ，当 $C_{\alpha}\left(T_{t}\right)=C_{\alpha}(t)$ $\alpha=\frac{C(t)-C\left(T_{t}\right)}{\left|T_{t}\right|-1}$

$T_{t}$ 与t有相同损失函数值，但 $t$ 结点更少，所以剪枝 $T_{t}$ 。

剪枝形成子树序列：

对 $T_{0}$ 中每个内部结点t，计算 $g(t)=\frac{C(t)-C\left(T_{t}\right)}{\left|T_{t}\right|-1}$

在 $T_{0}$ 中剪去 $g (t)$ 的最小值 $T_{t}$ ，将得到的子树作为 $T_{1}$ ，同时将最小的 $g (t)$ 设为 $\alpha_{1}$ ， $T_{1}$ 为区间 $\left[\alpha_{1}, \alpha_{2}\right)$ 的最优子树，如此剪下去，直到根节点，不断增加 $\alpha$ 的值，产生新的区间。

赏花赏月赏秋香

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
CART树及其剪枝学习笔记

CART树：分类与回归树算法由两部分组成：决策树生成决策树剪枝CART算法：CART算法采用一种二分递归分割的技术，算法总是将当前样本集分割为两个字样本集。生成的决策树的每个非叶结点都只有两个分枝，因此CART算法生成的决策树是结构简洁的二叉树。CART算法适用于样本特征的取值为是或非的场景。剪枝过程特别重要，所以在最优决策树生成过程中占有重要地位。有研究表明，剪枝过程的重要性要比树生成过程更为重要。回归树的生成（平方误差）：设YYY是连续变量，给定训练数据集：D={(x1,y
复制链接

扫一扫

专栏目录