决策树之CART（分类回归树（Classification and Regression Tree））算法

最新推荐文章于 2022-06-15 22:37:26 发布

Zen of Data Analysis

最新推荐文章于 2022-06-15 22:37:26 发布

阅读量2.4k

点赞数

分类专栏：算法机器学习统计文章标签：算法机器学习统计

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gracejpw/article/details/102099472

版权

CART（分类回归树）是一种二叉递归划分的机器学习算法，适用于分类和回归问题。它基于Gini指数或标准偏差减少作为分裂准则。在模型构建过程中，CART利用测试集进行剪枝，通过比较子节点和父节点的加权平均错误率来决定是否剪枝。测试集和验证集的使用有助于模型优化，通常遵循6:2:2的比例进行数据划分。剪枝过程有助于防止过拟合，提高模型泛化能力。

摘要由CSDN通过智能技术生成

CART-分类回归树

CART：分类回归树（Classification and Regression Tree），属性如下：
1）CART分裂过程是一个二叉递归划分过程；
2）CART预测变量x的类型既可以是连续型变量量也可以是分类型变量；
3）CART数据应以其原始形式处理，不需要离散化；
4）CART用于数值型预测时，并没有使用回归，而是基于到达叶结点的案例的平均值做出预测。

分裂准则

1）二叉递归划分：条件成立向左，反之向右：

对于连续变量：条件是属性小于等于最优分裂点；
对于分类变量量：条件是属性属于若干类。
2）二叉分裂的优点：相比多路分裂导致数据碎片化的速度慢，允许在一个属性上重复分裂，即可以在一个属性上产生足够多的分裂。两路分裂带来的树预测性能提升足以弥补其相应的树易读性损失。

对于属性不同的被预测变量y分裂准则不同：

分类树：Gini准则。与之前的信息增益很类似，Gini系数度量量一个结点的不纯度。
回归树：一种常见的分割标准是标准偏差减少（Standard Deviation Reduction, SDR），类似于最小均方误差LS（least squares，预测错误的平方和）准则。

利用测试集进行剪枝

以下简单讨论CART算法剪枝过程，该过程也是测试集用于修正模

最低0.47元/天解锁文章

Zen of Data Analysis

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。