欢迎使用CSDN-markdown编辑器_r 二叉树平方误差损失准则-CSDN博客

本文链接：https://blog.csdn.net/qq_28743951/article/details/78431086

机器学习之决策树CART

概念

分类和回归树（CART）模型有Breiman等人在1984年提出，是应用广泛的决策树学习方法，CART同样由特征选择、树的生成及树的剪枝组成，既可以用于分类也可以用于回归.

CART是在给定输入随机变量 $X$ 条件下输出随机变量 $Y$ 的条件概率分布的学习方法. CART假设决策树是二叉树, 内部节点特征取值为”是”和”否”, 即这样的决策树等价于递归地二分每一个特征, 将输入空间划分为有限个单元, 并在这些单元上确定预测的概率分布, 也就是在输入给定的条件下输出的条件概率分布.

CART算法分为两个部分:
(1) 决策树的生成: 基于训练数据集生成决策树, 生成的决策树要尽量大;
(2) 决策树剪枝: 用验证数据集对已生成的输进行剪枝并选择最优子树, 这是用损失函数最小作为剪枝的标准.

CART生成

决策树的生成就是递归地构建二叉树的过程. 对回归树用平方误差最小化准则, 对分类树用基尼指数(亦可以用信息增益)最小化准则, 进行特征选择, 生成二叉树.

1. 回归树的生成

假设 $X$ 与 $Y$ 分别为输入和输出变量, 且 $Y$ 是连续变量, 给定训练数据集

$D = $ (x 1, y 1), (x 2, y 2), \dots, (x N, y N)$ $D=${(x_1, y_1), (x_2, y_2), \cdots, (x_N,y_N)}$
考虑如何生成回归树.
一个回归树对应着输入空间的一个划分及在划分的单元上的输出值. 假设已将输入空间划分为 $M$ 个单元 $R_1, \cdots, R_M$ , 并且在每个单元 $R_m$ 上有一个固定的输出值 $c_m$ , 即模型的输出, 于是回归树的模型可以表示为

$f (x) = \sum m = 1 M c m I (x \in R m)$ $f(x)=\sum_{m=1}^Mc_mI(x\in R_m)$
当输入空间的划分确定时, 可以用平方误差 $\sum_{x_i\in R_m}(y_i-f(x_i))^2$ 来表示回归树对训练数据的预测误差, 用平方误差最小的准则求解每个单元上的最优输出值. 显然, 要使的平方误差最小, 那么每个单元 $R_m$ 上的最优值 $\hat{c}_m$ 是 $R_m$ 上的所有输入实例 $x_i$ 对应的输出 $y_i$ 的均值, 即
$c^m = a v e (y i | x i \in R m)$ $\hat{c}_m=ave(y_i|x_i\in R_m)$
问题是怎样对输入空间进行划分. 这里采用启发式的方法, 选择第 $j$ 个变量 $x^{(j)}$ 和它的值 $s$ , 作为切分变量和切分点, 并定义两个区域:
$R 1 (j, s) = {x | x (j) \leq s} 和 R 2 (j, s) = {x | x (j) > s}$ $R_1(j, s)=\{x|x^{(j)}\leq s\} 和 R_2(j, s)=\{x|x^{(j)}> s\}$
然后最小化
$min j, s ⎡ ⎣ min c 1 \sum x i \in R 1 (j, s) (y i - c 1) 2 - min c 2 \sum x i \in R 2 (j, s) (y i - c 2) 2 ⎤ ⎦$ $\min_{j,s}\left[\min_{c_1}\sum_{x_i\in {R_1}(j,s)}(y_i-c_1)^2-\min_{c_2}\sum_{x_i\in {R_2}(j,s)}(y_i-c_2)^2\right]$
对固定输入变量 $j$ 可以找到最优的切分点 $s$ .
$c^1 = a v e (y i | x i \in R 1 (j, s)) 和 c^2 = a v e (y i | x i \in R 2 (j, s))$ $\hat{c}_1=ave(y_i|x_i\in R_1(j,s))和\hat{c}_2=ave(y_i|x_i\in R_2(j,s))$
遍历所有变量, 找到最优的切分变量 $j$ , 构成一个对 $(j,s)$ , 即找到最优的分类特征及其切分点. 依此将输入空间划分为两个区域. 接着, 对每个区域重复上述划分过程, 直到满足停止条件为止. 这样就得到了一颗回归树. 这样的回归树通常称为最小二乘回归树. 其算法如下:
最先二乘回归树算法
输入:训练数据集 $D$ ;
输出:回归树 $f(x)$ .
在训练数据集所在的输入空间中, 递归地将每个区域划分为两个子区域并决定每个子区域上的输出值, 构建二叉树:
(1)选择最优切分变量 $j$ 与切分点 $s$ , 求解
$min j, s ⎡ ⎣ min c 1 \sum x i \in R 1 (j, s) (y i - c 1) 2 + min c 2 \sum x i \in R 2 (j, s) (y i - c 2) 2 ⎤ ⎦$ $\min_{j,s}\left[\min_{c_1}\sum_{x_i\in R_1(j,s)}(y_i-c_1)^2+\min_{c_2}\sum_{x_i\in R_2(j,s)}(y_i-c_2)^2\right]$
遍历变量 $j$ , 对固定的切分变量 $j$ 扫描分点 $s$ , 选择使得上式达到最小值的对 $(j,s)$ .
(2)用选定的对 $(j,s)$ 划分区域并决定相应的输出值:
$R 1 (j, s) = {x | x (j) \leq s}, R 2 (j, s) = {x | x (j) > s}$ $R_1(j,s)=\{x|x_{(j)}\leq s\}, R_2(j,s)=\{x|x_{(j)}> s\}$
$c^m = 1 N m \sum x i \in R m (j, s) y i, x \in R m, m = 1, 2$ $\hat{c}_m=\frac{1}{N_m}\sum_{x_i\in R_m(j,s)}y_i, ~~~ x\in R_m, ~~m=1,2$
(3)继续对两个子区域调用步骤（1）（2），直至满足条件停止.
(4)将输入空间划分为 $M$ 个区域 $R 1, R 2, . . ., R M$ $R_1,R_2,...,R_M$ , 生成决策树:
$f (x) = \sum m = 1 M c^m I (x \in R m)$ $f(x)=\sum_{m=1}^M\hat{c}_m I(x\in R_m)$