分类与回归树(CART)相关知识

最新推荐文章于 2024-05-14 17:05:40 发布

VariableX

最新推荐文章于 2024-05-14 17:05:40 发布

阅读量810

点赞数 1

分类专栏：机器学习基础文章标签：剪枝决策树算法机器学习

本文链接：https://blog.csdn.net/VariableX/article/details/106089870

版权

文章目录

CART算法
CART回归树生成
CART分类树的生成
- 连续值处理：
- 离散值处理：
CART 剪枝

CART算法

分类与回归树(CART)是应用广泛的算法，同样由特征选择、树的生成及剪枝组成，可以用于解决分类和回归问题。

ID3算法、C4.5算法分别使用了信息增益、信息增益比来选择特征，他们都使用了包含大量的对数运算的熵模型来计算样本纯度。而CART算法使用基尼系数来代替信息增益(比)，基尼系数代表了模型的不纯度，基尼系数越小，则不纯度越低，特征越好。这和信息增益(比)是相反的。

CART决策树的生成过程是递归构建二叉树的过程。对于分类树，使用基尼指数最小化准则；对回归树，使用平方误差最小化准则。

CART回归树生成

构建回归树有两个问题：

(1) 如何得到预测结果？

(2) 如何对输入空间进行划分？

一颗回归树是输入空间的一个划分，以及在划分单元的输出值。假设输入空间已经划分为M个： $R_1, R_2, ..., R_M$ ，并且在每个单元 $R_m$ 有一个固定的输出值 $c_m$ ，于是回归树模型可表示为：
$\sum_{m=1}^{M} c_m I(x \in R_m)$
可以用平方误差 $\sum_{x_i \in R_m} (y_i - f(x_i))^2$ 来表示回归树的预测误差，用平方误差最小的准则求解每个单元的最优输出值。

对于第一个问题，单元 $R_m$ 上的 $c_m$ 的最优值 $\hat c_m$ 是 $R_m$ 上所有输入实例 $x_i$ 对应的输出 $y_i$ 的均值，即：
$\hat{c}_m = ave(y_i \ | \ x_i \in R_m)$
那么如何对输入空间进行划分？可以采用启发式的方法，选择样本x的第j个特征 $x^{(j)}$ 和它的均值s作为切分变量和切分点。定义两个区域：
$R_1(j, s) = \{x \ | \ x^{(j)} \leqslant s\}\\ \ R_2(j, s) = \{x \ | \ x^{(j)} > s\}$
然后寻找最优切分变量 j 和最优切分点 s，具体地就是遍历所有特征的所有切分点，求解：
$\min_{j, s} \ [ \min_{c_1} \sum_{x_i \in R_1(j,s)} (y_i - c_1)^2 + \min_{c_2} \sum_{x_i \in R_2(j,s)} (y_i - c_2)^2]$
其中， $c_1$ 为R1数据集的样本输出均值， $c_2$ 为R2数据集的样本输出均值：
$\hat{c}_1 = ave( y_i \ | \ x_i \in R_1(j, s)), \ \hat{c}_2 = ave( y_i \ | \ x_i \in R_2(j, s))$
遍历所有输入变量，找到最优的切分变量 j，构成一个对(j,s)。依次将输入空间划分为两个区域。对每个区域重复上述划分过程，直到满足停止条件位置，这样的回归树通常称为最小二乘回归树，算法叙述如下：

输入：训练数据集 $D$

输出：回归树 $f (x)$

步骤：

遍历变量 $j$ ，对固定的切分变量 $j$ 扫描切分点 $s$ ，得到满足下面关系的 $(j, s)$

最低0.47元/天解锁文章

VariableX

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分类与回归树(CART)相关知识

文章目录CART算法CART回归树生成CART分类树的生成连续值处理：离散值处理：CART 剪枝CART算法分类与回归树(CART)是应用广泛的算法，同样由特征选择、树的生成及剪枝组成，可以用于解决分类和回归问题。ID3算法、C4.5算法分别使用了信息增益、信息增益比来选择特征，他们都使用了包含大量的对数运算的熵模型来计算样本纯度。而CART算法使用基尼系数来代替信息增益(比)，基尼系数代表了模型的不纯度，基尼系数越小，则不纯度越低，特征越好。这和信息增益(比)是相反的。CART决策树的生成过程是递
复制链接

扫一扫