集成学习前提--了解决策树

最新推荐文章于 2024-06-24 18:02:39 发布

code_of_yang

最新推荐文章于 2024-06-24 18:02:39 发布

阅读量358

点赞数 3

分类专栏：集成学习

本文链接：https://blog.csdn.net/qq_45892431/article/details/119251848

版权

3 篇文章 0 订阅

订阅专栏

前言

集成学习常用到的基本分类器就是决策树，那么什么是回归决策树呢？下面带大家重点了解下决策树中的CART算法。

分类决策树模型是一种描述实例进行分类的树形结构。决策树由结点和有向边组成。结点有两种类型：内部结点和叶结点。内部结点表示一个特征或属性，叶结点表示一个类。

用决策树分类，从根结点开始，对实例的某一特征进行测试，根据测试结果，将实例分配到子结点：这时，每一个子结点对应着该特征的一个取值。然后递归建树，直到到达叶子结点。最后将实例分到叶结点的类中。如下图，根据不同的特征，将实例分为4类（根据CART算法举例）。

在这里插入图片描述

CART是在给定输入随机变量X条件下输出随机变量Y的条件概率分布的学习方法。

CART算法由两部分组成：

决策树生成：基于训练数据集生成决策树，生成决策树要尽量大
决策树剪枝：用验证数据集对已生成的树进行剪枝并选择最优子树，这时用损失函数最小作为剪枝标准

CART假设决策树是二叉树，内部结点特征的取值为“是”和“否”，左分支是取值为“是”的分支，右分支是取值为“否”的分支。这样的决策树等价于递归地二分每个特征，将输入空间（特征空间）划分为有限个单元，并在这些单元上确定预测的概率分布（在输入给定条件下输出条件概率分布）

假设X和Y分别为输入和输出变量，并且Y是连续变量（标签），给定训练数据集
$\begin{aligned} D = {(x_1, y_1), (x_2, y_2),...,(x_N, y_N)} \end{aligned}$
在训练数据集所在的输入空间（特征空间），递归地将每个区域划分为两个子区域并决定每个子区域上的输出值，从而构建二叉决策树。
一棵回归树对应着输入空间（特征空间）的一个划分以及在划分的单元上的输出。假设已将输入空间划分为M个单元 $R_1, R_2, ... ,R_M$ ，并且在每个单元 $R_m$ 上有一个固定的输出值 $c_m$ ，于是回归树模型可表示为

$\begin{aligned} f(x) = \displaystyle\sum_{m=1}^{M}c_mI(x\in R_m)\tag{1} \end{aligned}$

划分输入空间。采用启发式的方法，选择第 j 个变量 $x^{(j)}$ 作为切分变量，s为其取值，作为切分点，并定义两个划分后的区域：
$\begin{aligned} R_1(j,s) = \{{x|x^{(j)} \le s}\}\\ R_2(j,s) = \{{x|x^{(j)} > s}\}\tag{2} \end{aligned}$
确定好输入空间划分后，可以用平方误差 $\displaystyle\sum_{x_i\in R_m}{(y_i - f(x_i))^2}$ 来表示回归树对于训练数据集的预测误差，用平方误差最小的准则求解每个单元上的最优输出值。
$\begin{aligned} \underset{j,s}{min}[\underset{c_1}{min}\displaystyle\sum_{x_i\in R_1(j,s)}(y_i - c_1)^2 + \underset{c_2}{min}\displaystyle\sum_{x_i\in R_2(j,s)}(y_i - c_2)^2]\tag{3} \end{aligned}$
易知，单元 $R_m$ 上的 $c_m$ 的最优值 $\hat{c_m}$ 是 $R_m$ 上的所有输入实例 $x_i$ 对应的输出 $y_i$ 的均值，即
$\begin{aligned} \hat{c_1} = ave(y_i|x_i\in R_1(j,s))\\ \hat{c_2} = ave(y_i|x_i\in R_2(j,s))\tag{4} \end{aligned}$
遍历所有输入变量，找到最优的切分变量 j 和对应的切分点 s，构成一个（j, s）对。依次将输入空间划分为两个区域，重复步骤，直到满足条件为止。根据模型得到最后的决策树：
$\begin{aligned} f(x) = \displaystyle\sum_{m=1}^{M}\hat{c_m}I(x\in R_m)\tag{5} \end{aligned}$

剪枝，顾名思义就是裁掉子树或者树叶。在决策树学习中将已生成的树进行简化的过程称为剪枝。

剪枝的目的很简单，就是为了避免过拟合（训练数据集和测试数据集的效果差异太大），使训练得到的模型对未知数据有更准确的预测。

CART剪枝算法主要分为两步：

从生成算法产生的决策树 $T_0$ 底端开始不断剪枝，直到T_0的根结点，形成一个子树序列 ${T_0，T_1，...，T_n\}$
通过交叉验证法在独立的验证数据集上对子树序列进行测试，从中选择最优子树。

1.剪枝，形成子树序列

Breiman等人证明：可以用递归的方法对树进行剪枝。将 $\alpha$ 从小增大，0 = $\alpha < \alpha_1 < ... < \alpha_n < +\infty$ ，产生一系列的区间 $[\alpha_i, \alpha_{i+1})$ ，i = 0，1，…，n；剪枝得到的子树序列区间 $\alpha \in [\alpha_i, \alpha_{i+1})$ ，i = 0，1，…，n的最优子树序列{ $T_0, T_1, ..., T_n$ }，序列中的子树是嵌套的。
具体地，从整体树 $T_0$ 开始剪枝。对 $T_0$ 的任意内部结点 t，以 t 为单结点的损失函数为：
$\begin{aligned} C_\alpha(t) = C(t) + \alpha\tag{6} \end{aligned}$
以 t 为根结点的子树 $T_t$ 的损失函数为
$\begin{aligned} C_\alpha(T_t) = C(T_t) + \alpha|T_t|\tag{7} \end{aligned}$

其中，C(T)为对训练数据的预测误差，|T|为子树叶子结点个数，参数 $\alpha(\alpha \geq 0)$ 是权衡训练数据的拟合程度和模型复杂度， $C_\alpha(T_t)$ 是参数为 $\alpha$ 时子树T的整体损失。

当 $\alpha = 0及\alpha充分小时，有不等式$
$\begin{aligned} C_\alpha(T_t) < C_\alpha(t)\tag{8} \end{aligned}$
当 $\alpha增大时，在某一\alpha有$
$\begin{aligned} C_\alpha(T_t) = C_\alpha(t)\tag{9} \end{aligned}$
当 $\alpha再增大时，不等式8反向。$ 只要 $\alpha = \frac{C(t) - C(T_t)}{|T_t| - 1}$ ， $T_t$ 与t有相同损失函数值，而 t 的结点少，故 t 比 $T_t$ 更可取，对 $T_t$ 进行剪枝。
为此，对 $T_0$ 中每一内部结点 t，计算
$\begin{aligned} g(t) = \frac{C(t) - C(T_t)}{|T_t| - 1}\tag{10} \end{aligned}$
它表示剪枝后整体损失函数减少的程度。在 $T_0$ 中剪去g(t)最小的 $T_t$ ，将得到的子树作为 $T_1$ ，同时将最小的g(t)设为 $\alpha_1$ ， $T_1$ 为区间[ $\alpha_1, \alpha_2$ )的最优子树。
一直这样剪枝下去，直到根结点。在这一过程中，不断地增加 $\alpha$ 的值，产生新的区间。

2.在剪枝得到的子树序列 ${T_0，T_1，...，T_n}$ 中通过交叉验证选取最优子树 $T_\alpha$

具体地，利用独立的验证数据集，测试子树序列 ${T_0，T_1，...，T_n}$ 中各棵子树的平方误差。平方误差最小的决策树被认为是最优的决策树。在子树序列中，每棵子树 ${T_0，T_1，...，T_n}$ 都对应于一个参数 $\alpha_1，\alpha_2，... ，\alpha_n$ 。所以，当最优子树 $T_k$ 确定时，对应的 $\alpha$ 也决定，即可得到最优决策树 $T_\alpha$ 。