CART 回归树中的公式详细讲解

本文将说明CART 回归树这些公式是如何在整个构建过程中发挥作用的。

CART 回归树的核心思想

CART(分类与回归树)既可以用于分类任务,也可以用于回归任务。在回归任务中,CART 回归树的目标是对连续型目标变量进行预测(例如预测房价、温度等)。与线性回归等方法不同,CART 回归树通过递归地将特征空间划分成多个区域,然后在每个区域中使用该区域内样本的目标均值来进行预测。

通过将数据集分成多个子集,CART 回归树能够很好地拟合非线性数据。其基本流程如下:

  1. 递归选择最优的特征和分裂点,划分数据集。
  2. 在每个划分区域内,使用该区域中的目标均值作为该区域的预测值。
  3. 通过最小化误差平方和来选择划分特征和分裂点。

CART 回归树的建模过程(公式 7-10)

f ( x ) = ∑ m = 1 M c m I ( x ∈ R m ) f(x) = \sum_{m=1}^{M} c_m I(x \in R_m) f(x)=m=1McmI(xRm)

公式 7-10 是 CART 回归树的预测模型表达式,描述了如何为每个输入 x x x 生成预测值。

  • f ( x ) f(x) f(x):CART 回归树对于输入 x x x 的预测输出值。
  • R m R_m Rm:特征空间中的第 m m m 个划分区域。CART 回归树通过划分特征空间,将数据集分成 M M M 个不重叠的区域。
  • c m c_m cm:区域 R m R_m Rm 内的预测值(常数)。通常来说,它是该区域内目标变量 y y y 的均值(即公式 7-11 中描述的计算方式)。
  • I ( x ∈ R m ) I(x \in R_m) I(xRm):指示函数,当 x x x 位于区域 R m R_m Rm 中时,该函数为 1,否则为 0。

该公式的含义是:给定一个输入 x x x,CART 回归树会找到 x x x 所属的划分区域 R m R_m Rm,并返回该区域的预测值 c m c_m cm 作为模型的输出。这种模型基于二叉树结构来递归划分数据,使得每个区域都包含类似的目标值。

预测过程:
  1. 对于输入样本 x x x,模型会通过决策树的划分找到其所属的区域 R m R_m Rm
  2. 输出 f ( x ) f(x) f(x) 就是区域 R m R_m Rm 对应的常数 c m c_m cm,即 R m R_m Rm 内所有样本的目标均值。

这种方法使得 CART 回归树非常灵活,能够捕捉数据中的复杂模式,而不是简单的线性关系。


如何确定区域内的输出值(公式 7-11)

c m = average ( y i ∣ x i ∈ R m ) c_m = \text{average}(y_i | x_i \in R_m) cm=average(yixiRm)

公式 7-11 详细描述了如何计算区域 R m R_m Rm 的预测值 c m c_m cm。也就是说,区域 R m R_m Rm 的预测值是所有位于该区域内的样本的目标均值。

  • y i y_i yi:是第 i i i 个样本的真实目标值。
  • x i ∈ R m x_i \in R_m xiRm:表示样本 x i x_i xi 属于区域 R m R_m Rm
公式含义:

该公式表明,对于属于区域 R m R_m Rm 的所有样本 x i x_i xi,其目标值 y i y_i yi 的均值就是该区域的预测值 c m c_m cm。这种方式保证了在该区域内的所有样本都会有一个相同的预测值。

举例说明:

假设我们有 5 个样本 ( x 1 , y 1 ) , ( x 2 , y 2 ) , ( x 3 , y 3 ) , ( x 4 , y 4 ) , ( x 5 , y 5 ) (x_1, y_1), (x_2, y_2), (x_3, y_3), (x_4, y_4), (x_5, y_5) (x1,y1),(x2,y2),(x3,y3),(x4,y4),(x5,y5),其中 x 1 , x 2 , x 3 x_1, x_2, x_3 x1,x2,x3 属于区域 R 1 R_1 R1,而 x 4 , x 5 x_4, x_5 x4,x5 属于区域 R 2 R_2 R2。那么,区域 R 1 R_1 R1 的预测值 c 1 c_1 c1 将是 y 1 , y 2 , y 3 y_1, y_2, y_3 y1,y2,y3 的均值,区域 R 2 R_2 R2 的预测值 c 2 c_2 c2 将是 y 4 , y 5 y_4, y_5 y4,y5 的均值。

这个公式的核心思想是:在每个区域中,使用目标变量的平均值来作为该区域的预测值。


如何划分数据集(公式 7-12)

R 1 ( j , s ) = { x ∣ x ( j ) ≤ s } , R 2 ( j , s ) = { x ∣ x ( j ) > s } R_1(j, s) = \{ x | x^{(j)} \leq s \}, \quad R_2(j, s) = \{ x | x^{(j)} > s \} R1(j,s)={xx(j)s},R2(j,s)={xx(j)>s}

公式 7-12 描述了 CART 回归树在训练过程中如何基于某个特征 j j j 和分裂点 s s s 将数据集划分为两个子集(区域)。

  • j j j:表示用于划分数据集的特征索引。
  • s s s:特征 j j j 上的划分点(阈值)。
  • R 1 ( j , s ) R_1(j, s) R1(j,s):所有第 j j j 个特征的值小于等于 s s s 的数据点构成的区域。
  • R 2 ( j , s ) R_2(j, s) R2(j,s):所有第 j j j 个特征的值大于 s s s 的数据点构成的区域。
公式含义:

CART 回归树会选择某个特征 j j j 以及该特征上的某个取值 s s s 作为分裂点,将数据集划分为两个子区域 R 1 ( j , s ) R_1(j, s) R1(j,s) R 2 ( j , s ) R_2(j, s) R2(j,s)。其中:

  • 所有特征值 x ( j ) ≤ s x^{(j)} \leq s x(j)s 的样本被划分到 R 1 R_1 R1
  • 所有特征值 x ( j ) > s x^{(j)} > s x(j)>s 的样本被划分到 R 2 R_2 R2
举例说明:

假设我们在数据集中有一个特征 “房屋面积” X X X,并且我们选择 1300 平方英尺作为分裂点 s s s,则:

  • 所有房屋面积小于等于 1300 平方英尺的样本 x x x 会被划分到 R 1 R_1 R1
  • 所有房屋面积大于 1300 平方英尺的样本 x x x 会被划分到 R 2 R_2 R2

通过不断地划分数据集,CART 回归树会生成一棵二叉树,每个节点都是根据一个特征和分裂点划分出来的。


如何选择最佳划分(公式 7-13)

min ⁡ j , s [ min ⁡ c 1 ∑ x i ∈ R 1 ( j , s ) ( y i − c 1 ) 2 + min ⁡ c 2 ∑ x i ∈ R 2 ( j , s ) ( y i − c 2 ) 2 ] \min_{j, s} \left[ \min_{c_1} \sum_{x_i \in R_1(j, s)} (y_i - c_1)^2 + \min_{c_2} \sum_{x_i \in R_2(j, s)} (y_i - c_2)^2 \right] j,smin c1minxiR1(j,s)(yic1)2+c2minxiR2(j,s)(yic2)2

公式 7-13 是 CART 回归树中用于选择最佳特征和分裂点的关键公式。它描述了如何选择特征 j j j 和分裂点 s s s,使得划分后的两个子区域的误差平方和最小。

  • j j j:表示用于划分数据的特征索引。
  • s s s:特征 j j j 上的分裂点(取值)。
  • R 1 ( j , s ) R_1(j, s) R1(j,s) R 2 ( j , s ) R_2(j, s) R2(j,s):通过特征 j j j 和分裂点 s s s 将数据划分为的两个子区域。
  • c 1 c_1 c1 c 2 c_2 c2:是区域 R 1 R_1 R1 R 2 R_2 R2 内的预测值(即每个区域目标值的均值)。
公式的含义:
  1. 内层最小化 c 1 c_1 c1 c 2 c_2 c2:对于每个区域 R 1 ( j , s ) R_1(j, s) R1(j,s) R 2 ( j , s ) R_2(j, s) R2(j,s),找到最佳常数值 c 1 c_1 c1 c 2 c_2 c2,使得平方误差最小。换句话说, c 1 c_1 c1 c 2 c_2 c2 就是区域 R 1 R_1 R1 R 2 R_2 R2 的均值,它们能最小化各自区域内的误差。

  2. **外层最小化 j j j 和 (

s$**:CART 算法通过遍历所有特征 j j j 以及每个特征的所有可能分裂点 s s s,找到能使整个数据集的误差平方和最小的特征 j j j 和分裂点 s s s

最终,CART 回归树通过选择能够最小化误差的特征和分裂点,保证每次划分后的区域能够更好地拟合数据。

举例说明:

假设我们有一个房价预测任务,特征是房屋面积 X X X。算法会尝试多个可能的划分点(如 1200、1300、1500 平方英尺等),并计算每个划分后的两个区域的平方误差。最终选择使得两个区域误差平方和最小的划分点。


综合总结

CART 回归树的构建可以分为以下几个关键步骤:

  1. 模型结构(公式 7-10):CART 回归树通过将特征空间划分为多个子区域 R m R_m Rm,并为每个区域指定一个常数值 c m c_m cm 来进行预测。

  2. 区域预测值的确定(公式 7-11):在每个区域 R m R_m Rm 中,使用区域内目标变量的均值 c m c_m cm 作为该区域内所有样本的预测值。这确保了区域内所有样本的预测值是相同的。

  3. 数据集划分(公式 7-12):CART 回归树通过特征 j j j 和分裂点 s s s 将数据集划分为两个子区域 R 1 ( j , s ) R_1(j, s) R1(j,s) R 2 ( j , s ) R_2(j, s) R2(j,s)。这种划分是基于某个特定特征的取值范围进行的。

  4. 选择最佳划分(公式 7-13):CART 回归树通过最小化划分后两个区域内的误差平方和,来选择最佳的特征和分裂点,从而确保每次划分能够减少整体的预测误差。

CART 回归树的灵活性在于它能够通过不断划分特征空间,捕捉数据的非线性关系,并且在回归任务中,使用均方误差来衡量和优化模型的表现。这使得 CART 回归树成为回归任务中的重要工具之一。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值