决策树之CART（分类回归树）详解

酒酿小圆子～

已于 2024-07-17 10:06:47 修改

阅读量1.9w

点赞数 32

分类专栏：机器学习 & 深度学习文章标签：决策树分类回归

于 2024-05-14 17:05:40 首次发布

本文链接：https://blog.csdn.net/u012856866/article/details/138860813

版权

机器学习 & 深度学习专栏收录该内容

93 篇文章

订阅专栏

文章目录

一、背景介绍
二、CART介绍
三、CART剪枝
参考资料

一、背景介绍

分类与回归树（classification and regression tree，CART）是决策树算法中的一种，与其他决策树算法相同，同样由特征选择，树的生成与剪枝组成。CART被广泛应用，且被用于树的集成模型，例如，GBDT、RF等集成算法的基学习器都是CART树。决策树是典型的非线性模型，GBDT和RF因此也是非线性模型。

决策树的经典算法包括ID3、C4.5、CART算法，其应用领域及所使用的准则，如下图所示。

在这里插入图片描述

二、CART介绍

CART分类回归树是一种典型的二叉决策树，可以做分类或者回归。如果待预测结果是离散型数据，则CART生成分类决策树；如果待预测结果是连续型数据，则CART生成回归决策树。

CART算法的重要基础包含以下三个方面：

二分(Binary Split)：在每次判断过程中，都是对观察变量进行二分。
CART算法采用一种二分递归分割的技术，算法总是将当前样本集分割为两个子样本集，使得生成的决策树的每个非叶结点都只有两个分枝，CART二分每个特征（包括标签特征以及连续特征），如果标签特征有3个属性，可以将其中的两个属性归为一类，另一个属性归为一类。因此CART算法生成的决策树是结构简洁的二叉树。因此CART算法适用于样本特征的取值为是或非的场景，对于连续特征的处理则与C4.5算法相似。
单变量分割(Split Based on One Variable)：每次最优划分都是针对单个变量。
剪枝策略：CART算法的关键点，也是整个Tree-Based算法的关键步骤。
剪枝过程特别重要，所以在最优决策树生成过程中占有重要地位。有研究表明，剪枝过程的重要性要比树生成过程更为重要，对于不同的划分标准生成的最大树(Maximum Tree)，在剪枝之后都能够保留最重要的属性划分，差别不大。反而是剪枝方法对于最优树的生成更为关键。

2.1 分类树

2.2.1 基本介绍

分类树用基尼指数（gini index）最小化准则进行特征选择生成二叉树，基尼指数G(D,A)表示经A=a分割后集合D的不确定性，基尼指数越大，样本集合的不确定性就越大。

【基尼指数】: 对于一份lable为分类变量的训练集，存在一个指标叫做基尼指数，其定义如下：

在这里插入图片描述

其中，pi表示某一类别的样本数占总样本数的比例。gini越小，表示样本分布越均匀（0的时候就表示只有一类了），越大越不均匀。

注意：只要是分类性质的样本集，本身就存在基尼指数这个属性。

【Gini增益】：
在这里插入图片描述

Gini增益表示当前属性的一个混乱度。其中， $N i / N$ 表示当前类别占所有类别的概率。

最终Cart分类树选择GiniGain最小的特征作为划分特征。

【Cart分类树选择GiniGain最小的特征作为划分特征】这里怎么理解呢？
其实就是我们用每个特征（这里是A）的每个可能的值（这里是a）进行二分，每分一次就会产生两份样本，然后按照上式求每一次的综合基尼指数，最后选择基尼指数最小的那个分法就好了。

注意：CART树的每一步都是二分，没有多分情况。

2.1.2 实现步骤

【分类树算法步骤】：

首先是根据当前特征计算他们的基尼增益。
选择基尼增益最小的特征作为划分特征。
从该特征中查找基尼指数最小的分类类别作为最优划分点。
将当前样本划分成两类，一类是划分特征的类别等于最优划分点，另一类就是不等于

针对这两类递归进行上述的划分工作，直达结点中的样本个数小于预定阈值，或样本集的基尼指数小于预定阈值（样本基本属于同一类），或者没有更多特征。

2.2 回归树

2.2.1 基本介绍

回归树采用均方误差作为损失函数，树生成时会递归的按最优特征与最优特征下的最优取值对空间进行划分，直到满足停止条件为止。

回归树该怎么确定哪个分法才最好呢？最小二乘！经典的最小二乘算法！

之所以称为最小二乘回归树，是因为，回归树以误差平方和为准则选择最优二分切点，该生成算法在训练数据集上所在的输入空间中，递归的将每个区域划分为两个子区域并决定每个子区域的输出值，在这里分为两种情况，一是输出值为子区域输出值的均值该种情况下为回归树，二是输出值为子区域输入与输出的线性回归，输出值为回归系数，该种情况下为模型树。