笔记-CART

最新推荐文章于 2024-07-18 23:36:20 发布

K_Albert

最新推荐文章于 2024-07-18 23:36:20 发布

阅读量430

点赞数

分类专栏：统计学习方法文章标签： CART 决策树统计学学习方法

本文链接：https://blog.csdn.net/K_Albert/article/details/78282498

版权

统计学习方法专栏收录该内容

4 篇文章 1 订阅

订阅专栏

1.CART

分类与回归树(classification and regression tree)是决策树算法的一种，既可以用于分类，也可以用于回归。CART假设决策树是二叉树，其结点特征取值只有“是”和“不是”，这样的决策树相当于递归的二分每个特征，CART算法：

(1)决策树生成：通过训练数据集生成决策树，越大越好。

(2)决策树剪枝：使用验证数据集对决策树进行剪枝，选出最优的子树，同样是损失函数最小化为目标。

2.CART回归

一个回归树对应着对输入空间（特征空间）的划分以及划分的单元上的输出。

回归树的生成：

输入随机变量 $X,Y$ , $Y$ 是连续变量，输入数据集

D = (x 1, y 1), (x 2, y 2), \dots, (x n, y n)

$D={(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)}$

输入空间可划分为有限个区域 $R_1,R_2,\cdots,R_M$ , $x\in R_m$ 上的输出为 $c_m$ ,所以回归树模型可表示为：

f (x) = \sum i = 1 n c m I (x i \in R m)

$f(x)=\sum_{i=1}^n c_mI(x_i\in R_m)$

用平方方差 $sum_{x_i \in R_m}(y_i-f(x_i))^2$ 来表示回归树对于训练数据的预测误差，求平方方差最小来求每个区域上最优的输出。易知， $R_m$ 上的最优输出 $\hat c_m=ave(y_i|x_i\in R_m)$ .

输入空间可以划分，那么如何划分呢？采用启发式算法，对于变量 $x^{(j)}$ 和它的值 $s$ ,定义两个区域

R 1 (j, s) = {x | x (j) \leq S}, R 2 (j, s) {x | x (j) > S}

$R_1(j,s)=\{x|x^{(j)}\le S\},R_2(j,s)\{x|x^{(j)}> S\}$

求解，

m i n j, s (m i n c 1 \sum x i \in R 1 (y i - c 1) 2 + m i n c 2 \sum x i \in R 2 (y i - c 2) 2)

$min_{j,s}(min_{c_1}\sum_{x_i\in R_1}(y_i-c_1)^2+min_{c_2}\sum_{x_i\in R_2}(y_i-c_2)^2)$

当 $j$ 给定时，可以求出最优的切分点 $s$ , 遍历所有的变量，得到 $(j,s)$ ,得到最优切分变量和切分点。将输入空间分成两个子区域，然后依次对两个子区域进行划分，直到划分出M个区域。

3.CART分类

算法大致与ID3及C4.5相同，但是不仅要选取特征，还要选取特征最优二值划分点，两者准则为基尼指数极小化。

基尼指数：假设样本有 $K$ 类，样本属于第 $k$ 类的概率为 $p_k$

G i n (p) = \sum k = 1 K p k (1 - p k) = 1 - \sum k = 1 K p 2 k

$Gin(p)=\sum_{k=1}^K p_k(1-p_k)=1-\sum_{k=1}^K p_k^2$

基尼指数表示数据集D的不确定度，基尼指数越大，不确定度越大，与熵类似。

4.CART剪枝

CART剪枝是一种全局搜索最优的方式，从生成的决策树 $T_0$ 底端开始不断向上剪枝，直到剩下单结点树，形成一个子树序列 $\{T_0,T_1,\cdots,T_n\}$ ,然后通过交叉验证的方法在独立的验证数据集上对子树集进行测试，得出最优的子树。

如何得到子树序列

Breiman等人证明，可以用递归的方法对树进行剪枝，将 $\alpha$ 从小增大， $\alpha_0<\alpha_1<\cdots<\alpha_n<+\infty$ ,产生一系列的区间 $[\alpha_i,\alpha_{i+1}),i=0,1,\cdots,n$ ,剪枝得到的子树序列对应于区间 $[\alpha_i,\alpha_{i+1})$ 上的最优子树序列 $\{T_0,T_1,\cdots,T_n\}$

具体地，从树 $T_0$ 开始剪枝，以 $t$ 为根结点的树损失函数

C α (T t) = C (T t) + α | T t |

$C_\alpha(T_t)=C(T_t)+\alpha|T_t|$

$t$ 是单结点树

C α (t) = C (t) + α

$C_\alpha(t)=C(t)+\alpha$

当 $\alpha=0$ 或 $\alpha$ 很小时，

C α (T t) > C α (t)

$C_\alpha(T_t)>C_\alpha(t)$

当 $\alpha$ 逐渐增大，直至有一个 $\alpha$ 满足

C α (T t) = C α (t)

$C_\alpha(T_t)=C_\alpha(t)$

此时，定义 $g(t)=\alpha=\frac{C_\alpha(T_t-C_\alpha(t))}{|T_t|-1}$ ,此时 $t$ 和 $T_t$ 有相同的损失函数， $t$ 比 $T_t$ 更可取，对 $T_t$ 剪枝。

因此，对树 $T_0$ 每一个内部结点 $t$ 计算 $g(t)$ , $g(t)$ ，也就是 $\alpha$ 表示剪枝后损失函数整体减小的程度。选取 $g(t)$ 最小的 $T_t$

进行剪枝，剪枝后的子树为 $T_1$ 并令 $\alpha_1=g(t)$ ,则 $T_1$ 是区间 $[\alpha_1,\alpha_2)$ 的最优子树。不断增大 $\alpha$ ，得到新的区间，直到得到根结点树。

如何得到最优解

利用独立的验证数据集，对子树序列中子树分别计算平方方差损失或者基尼系数，其中值最小的就是最优解。

K_Albert

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
笔记-CART

1.CART分类与回归树(classification and regression tree)是决策树算法的一种，既可以用于分类，也可以用于回归。CART假设决策树是二叉树，其结点特征取值只有“是”和“不是”，这样的决策树相当于递归的二分每个特征，CART算法：(1)决策树生成：通过训练数据集生成决策树，越大越好。(2)决策树剪枝：使用验证数据集对决策树进行剪枝，选出最优的子树，同样是损失函数最
复制链接

扫一扫