CART算法的原理以及实现

最新推荐文章于 2024-05-14 17:05:40 发布

gzj_1101

最新推荐文章于 2024-05-14 17:05:40 发布

阅读量3.2w

点赞数 27

分类专栏： machine learning 文章标签：机器学习决策树 CART

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gzj_1101/article/details/78355234

版权

- CART
  - 算法思想
    - CART树的特点
- 回归树的生成

CART

分类回归树(classification and regression tree，CART)模型由Breiman等人在1984年提出，是应用广泛的决策树学习方法。CART同样由特征选择、树的生成以及剪枝组成，既可以用于分类也可以用于回归。同样属于决策树的一种。

算法思想

CART算法采用的是一种二分递归分割的技术，将当前样本分成两个子样本集，使得生成的非叶子节点都有两个分支。因此CART实际上是一颗二叉树。

CART树的特点

CART不是一颗二叉树
CART既是分类树又是回归树
当CART是分类树的时候，采用GINI值作为分裂节点的依据，当CART作为回归树的时候，使用样本的最小方差作为分裂节点的依据

回归树的生成

最小二乘法回归树生成算法

输入：训练数据集D
输出：回归树 $f(x)$
在训练数据集所在的输入空间中，递归得将每一个区域划分为两个子区域并决定每个子区域上的输出值，构建二叉决策树：
(1)选择最优切分变量j和切分点s，求解

m i n j, s [m i n c 1 \sum x i \in R 1 (j, s) (y i - c 1) 2 + m i n c 2 \sum x i \in R 2 (j, s) (y i - c 2) 2]

$min_{j,s}[min_{c_1}\sum_{x_i\in R_1(j,s)}(y_i-c_1)^2+min_{c_2}\sum_{x_i\in R_2(j,s)}(y_i-c_2)^2]$
遍历变量j，对固定的切分变量j扫描切分点s，选择使上式达到误差最小的变量(j,s)，其中

R1 R 1 $R_1$ 和

R2 R 2 $R_2$ 表示的是划分之后的空间。

(2)用选定的(j,s)划分区域并决定响应的输出值。

R 1 (j, s) = {x (j)} \leq s, R 2 (j, s) = {x | x (j) > s}

$R_1(j,s)=\{x^{(j)}\}\leq s,\quad R_2(j,s)=\{x|x^{(j)}>s\}$

c m = 1 N m \sum x i \in R m (j, s) y i, x \in R m, m = 1, 2

$c_m=\frac{1}{N_m}\sum_{x_i\in R_m(j,s)}y_i,\quad x\in R_m,m=1,2$
(3)继续对两个子区域调用步骤(1),(2),直到满足停止条件。

(4)将输入空间划分为M个区域 R1,R2,R3....RM

最低0.47元/天解锁文章

关注

27
点赞
踩
152

收藏

觉得还不错? 一键收藏
9
评论
CART算法的原理以及实现

CART算法思想CART树的特点回归树的生成最小二乘法回归树生成算法分类树的生成基尼指数分类树生成算法剪枝处理CART分类回归树(classification and regression tree，CART)模型由Breiman等人在1984年提出，是应用广泛的决策树学习方法。CART同样由特征选择、树的生成以及剪枝组成，既可以用于分类也...
复制链接

扫一扫

专栏目录

评论 9

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。