CART 分类与回归树

最新推荐文章于 2024-07-07 10:57:19 发布

Alice熹爱学习

最新推荐文章于 2024-07-07 10:57:19 发布

阅读量1.4k

点赞数

分类专栏： MachineLearning 文章标签：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/aliceyangxi1987/article/details/73374890

版权

本文结构：CART算法有两步回归树的生成分类树的生成剪枝CART － Classification and Regression Trees分类与回归树，是二叉树，可以用于分类，也可以用于回归问题，最先由 Breiman 等提出。分类树的输出是样本的类别，回归树的输出是一个实数。CART算法有两步：决策树生成和剪枝。决策树生成：递归地构建二叉决策树的过程，基于训练数据集生成决策树，生成的

摘要由CSDN通过智能技术生成

本文结构：

CART算法有两步
回归树的生成
分类树的生成
剪枝

CART － Classification and Regression Trees

分类与回归树，是二叉树，可以用于分类，也可以用于回归问题，最先由 Breiman 等提出。

分类树的输出是样本的类别，回归树的输出是一个实数。

CART算法有两步：

决策树生成和剪枝。

决策树生成：递归地构建二叉决策树的过程，基于训练数据集生成决策树，生成的决策树要尽量大；

自上而下从根开始建立节点，在每个节点处要选择一个最好的属性来分裂，使得子节点中的训练集尽量的纯。

不同的算法使用不同的指标来定义”最好”：

分类问题，可以选择GINI，双化或有序双化；
回归问题，可以使用最小二乘偏差（LSD）或最小绝对偏差（LAD）。

决策树剪枝：用验证数据集对已生成的树进行剪枝并选择最优子树，这时损失函数最小作为剪枝的标准。

这里用代价复杂度剪枝 Cost-Complexity Pruning(CCP)

回归树的生成

回归树模型表示为：

其中，数据空间被划分成了 R1～Rm 单元，每个单元上有一个固定的输出值 cm。
这样就可以计算模型输出值与实际值的误差：

我们希望每个单元上的 cm，可以使得这个平方误差最小化，易知当 cm 为相应单元上的所有实际值的均值时，可以达到最优：

那么如何生成这些单元划分？

假设，我们选择变量 xj 为切分变量，它的取值 s 为切分点，那么就会得到两个区域：

当 j 和 s 固定时，我们要找到两个区域的代表值 c1，c2 使各自区间上的平方差最小，

前面已经知道 c1，c2 为区间上的平均，

最低0.47元/天解锁文章

Alice熹爱学习

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
CART 分类与回归树

本文结构：CART算法有两步回归树的生成分类树的生成剪枝CART － Classification and Regression Trees分类与回归树，是二叉树，可以用于分类，也可以用于回归问题，最先由 Breiman 等提出。分类树的输出是样本的类别，回归树的输出是一个实数。CART算法有两步：决策树生成和剪枝。决策树生成：递归地构建二叉决策树的过程，基于训练数据集生成决策树，生成的
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。