决策树-CART

最新推荐文章于 2023-10-09 21:47:30 发布

Claroja

最新推荐文章于 2023-10-09 21:47:30 发布

阅读量321

点赞数

文章标签： python

本文链接：https://blog.csdn.net/claroja/article/details/108847776

版权

CART(Classification and Regression Trees)既分类回归树，既可以用于分类又可以用于回归。

CART分类问题

连续特征值处理

CART处理思想是与C4.5相同，既将连续特征值离散化。唯一不同的地方是CART采用基尼系数，而C4.5采用信息增益比。

在这里插入图片描述
特征a有连续值m个，从小到大排列。
m个数值就有m-1个切分点，每个切分点都可以把特征a切分成D1和D2两个子集
一次计算所有切分的基尼指数，选择最小的作为最终的特征划分。

在这里插入图片描述

离散特征

如果特征值是离散的
1.CART是二叉树
1）C4.5会划分出多叉树
2）CART则是无论离散特征有几个分类，都会划分成二叉树。
在这里插入图片描述
假设特征a有m个离散值。分类标准是：每一次将其中一个特征分为一类，其他非该特征分为另一类。依照这个标准遍历所有分类情况，计算每个分类下的基尼指数，最后选择最小的作为最终的特征划分。

2.CART与ID3和C4.5在处理离散特征不同的是：CART某特征作为节点后，该特征剩余的值还可以参与子节点的产生过程。

在这里插入图片描述

CART回归问题

回归树在选择特征的度量标准和决策树建立后预测的方式与分类树都不同。
在这里插入图片描述

预测方式

一个回归树对应着输入特征空间的一个划分，以及在划分单元上的输出值。假设数据集已经被划分为：R1，R2，…，Rm共m个子集，回归树要求每个子集Rm都对应一个固定的输出值Cm。
在这里插入图片描述
Cm值其实就是每个子集中所有样本的目标变量y的平均值。
所有分支节点都是如此，叶子节点也不例外。既将叶子节点中样本的y均值作为回归的预测值。