CART回归树中的方差减少量计算步骤和示例

正义的彬彬侠

于 2024-10-07 23:50:41 发布

阅读量436

点赞数 8

分类专栏：机器学习文章标签：机器学习决策树 CART 回归人工智能

本文链接：https://blog.csdn.net/u013172930/article/details/142748808

版权

65 篇文章 1 订阅

订阅专栏

在 CART 回归树 中，方差减少量（Variance Reduction）是用来衡量一个分裂节点的好坏的关键指标。CART 回归树通过不断选择能够最大程度减少方差的特征和分裂点来划分数据，构建一棵回归树。方差减少量的计算是决定最佳划分点的核心依据。

CART 回归树在处理回归问题时，目标是将特征空间划分为多个子区域，使得每个子区域的预测值（通常是该区域内所有样本目标值的均值）能够尽可能准确地代表区域内样本的真实值。

方差减少量 是 CART 回归树在选择分裂点时的标准。它反映了在某个节点上对数据进行分裂时，分裂前后方差的变化。理想情况下，分裂后的子节点方差应比父节点方差更小，这样说明分裂使得数据集更加“纯”。

在构建 CART 回归树的过程中，算法会尝试不同的特征和不同的分裂点来划分数据，并选择能够最大化方差减少量的分裂点。具体步骤如下：

假设在节点 $N$ 中，有 $n$ 个样本。目标变量的方差（均方误差）计算如下：
$\text{Var}(N) = \frac{1}{n} \sum_{i=1}^{n} (y_i - \bar{y})^2$

其中：

假设我们选择了特征 $j$ 和划分点 $s$ 进行分裂，分裂后生成了两个子节点 $N_1$ 和 $N_2$ ：

分裂后的两个子节点 $N_1$ 和 $N_2$ 的方差分别为：
$\text{Var}(N_1) = \frac{1}{n_1} \sum_{i \in N_1} (y_i - \bar{y}_1)^2$

$\text{Var}(N_2) = \frac{1}{n_2} \sum_{i \in N_2} (y_i - \bar{y}_2)^2$

其中：

为了评估分裂后的整体方差，我们需要计算子节点的加权方差。加权方差计算如下：
$\text{Weighted Var}(N) = \frac{n_1}{n} \text{Var}(N_1) + \frac{n_2}{n} \text{Var}(N_2)$

其中：

方差减少量反映了通过分裂减少的方差。它是分裂前节点方差和分裂后加权方差的差值，计算公式为：
$\Delta \text{Var} = \text{Var}(N) - \text{Weighted Var}(N)$

方差减少量 $\Delta \text{Var}$ 越大，说明当前分裂点 $s$ 和特征 $j$ 能够更好地将数据划分开，使得数据集更加“纯”。因此，CART 回归树会选择能够最大化方差减少量的分裂点进行分裂。

假设我们有一个简单的数据集，用于预测房价。数据集包含房屋面积和房价两列，算法希望通过房屋面积来进行分裂。

计算分裂前的方差：
假设当前节点中有 10 个房价数据，其均值为 $\bar{y} = 300,000$ ，方差为：
$\text{Var}(N) = \frac{1}{10} \sum_{i=1}^{10} (y_i - 300,000)^2 = 40,000$
分裂数据集：
假设我们尝试以房屋面积为特征，选择某个分裂点 $s = 1500$ 平方英尺进行分裂。分裂后得到两个子集：
- 子节点 $N_1$ ：房屋面积 $\leq 1500$ 平方英尺的样本，方差为 $\text{Var}(N_1) = 20,000$ 。
- 子节点 $N_2$ ：房屋面积 $> 1500$ 平方英尺的样本，方差为 $\text{Var}(N_2) = 10,000$ 。
计算加权方差：
假设子节点 $N_1$ 有 6 个样本，子节点 $N_2$ 有 4 个样本，加权方差计算为：
$\text{Weighted Var}(N) = \frac{6}{10} \times 20,000 + \frac{4}{10} \times 10,000 = 12,000 + 4,000 = 16,000$
计算方差减少量：
$\Delta \text{Var} = 40,000 - 16,000 = 24,000$