经典算法详解--CART分类决策树、回归树和模型树

本文链接：https://blog.csdn.net/jiede1/article/details/76034328

本文深入探讨了CART（Classification And Regression Tree）算法，包括其在分类决策树和回归树中的应用。CART算法通过最小化Gini指数选择最优特征进行节点划分，同时介绍了对离散和连续特征的处理方法，以及剪枝策略在防止过拟合中的重要性。此外，文章还讨论了回归树和模型树的概念，强调它们在处理连续分布数据时的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Classification And Regression Tree(CART)是一种很重要的机器学习算法，既可以用于创建分类树（Classification Tree），也可以用于创建回归树（Regression Tree），本文介绍了CART用于离散标签分类决策和连续特征回归时的原理。决策树创建过程分析了信息混乱度度量Gini指数、连续和离散特征的特殊处理、连续和离散特征共存时函数的特殊处理和后剪枝；用于回归时则介绍了回归树和模型树的原理、适用场景和创建过程。个人认为，回归树和模型树可以被看做“群落分类”算法，群落内标签值连续分布，群落间有分界。

（一）认识CART算法

Classification And Regression Tree(CART)是决策树的一种，并且是非常重要的决策树，属于Top Ten Machine Learning Algorithm。顾名思义，CART算法既可以用于创建分类树（Classification Tree），也可以用于创建回归树（Regression Tree）、模型树（Model Tree），两者在建树的过程稍有差异。前文“机器学习经典算法详解及Python实现–决策树（Decision Tree）”详细介绍了分类决策树原理以及ID3、C4.5算法，本文在该文的基础上详述CART算法在决策树分类以及树回归中的应用。
创建分类树递归过程中，CART每次都选择当前数据集中具有最小Gini信息增益的特征作为结点划分决策树。ID3算法和C4.5算法虽然在对训练样本集的学习中可以尽可能多地挖掘信息，但其生成的决策树分支、规模较大，CART算法的二分法可以简化决策树的规模，提高生成决策树的效率。对于连续特征，CART也是采取和C4.5同样的方法处理。为了避免过拟合(Overfitting)，CART决策树需要剪枝。预测过程当然也就十分简单，根据产生的决策树模型，延伸匹配特征值到最后的叶子节点即得到预测的类别。
创建回归树时，观察值取值是连续的、没有分类标签，只有根据观察数据得出的值来创建一个预测的规则。在这种情况下，Classification Tree的最优划分规则就无能为力，CART则使用最小剩余方差(Squared Residuals Minimization)来决定Regression Tree的最优划分，该划分准则是期望划分之后的子树误差方差最小。创建模型树，每个叶子节点则是一个机器学习模型，如线性回归模型。

CART算法的重要基础包含以下三个方面：
（1）二分(Binary Split)：在每次判断过程中，都是对观察变量进行二分。
CART算法采用一种二分递归分割的技术，算法总是将当前样本集分割为两个子样本集，使得生成的决策树的每个非叶结点都只有两个分枝。因此CART算法生成的决策树是结构简洁的二叉树。因此CART算法适用于样本特征的取值为是或非的场景，对于连续特征的处理则与C4.5算法相似。
（2）单变量分割(Split Based on One Variable)：每次最优划分都是针对单个变量。
（3）剪枝策略：CART算法的关键点，也是整个Tree-Based算法的关键步骤。
剪枝过程特别重要，所以在最优决策树生成过程中占有重要地位。有研究表明，剪枝过程的重要性要比树生成过程更为重要，对于不同的划分标准生成的最大树(Maximum Tree)，在剪枝之后都能够保留最重要的属性划分，差别不大。反而是剪枝方法对于最优树的生成更为关键。

（二）CART分类决策树

1，CART的信息论基础和算法过程

CART与C4.5的不同之处是节点分裂建立在GINI指数这个概念上，GINI指数主要是度量数据划分或训练数据集D的不纯度为主。GINI值越小，表明样本的纯净度越高（即该样本只属于同一类的概率越高）。衡量出数据集某个特征所有取值的Gini指数后，就可以得到该特征的Gini Split info，也就是GiniGain。不考虑剪枝情况下，分类决策树递归创建过程中就是每次选择GiniGain最小的节点做分叉点，直至子数据集都属于同一类或者所有特征用光了。
因为CART二分的特性，当训练数据具有两个以上的类别，CART需考虑将目标类别合并成两个超类别，这个过程称为双化。超类别总如何进一步区分类别呢？根据别的特征进一步分类？TBD
（1）Gini指数的概念：
GINI指数是一种不等性度量，通常用来度量收入不平衡，可以用来度量任何不均匀分布，是介于0~1之间的数，0-完全相等，1-完全不相等。分类度量时，总体内包含的类别越杂乱，GINI指数就越大(跟熵的概念很相似)。
对于一个数据集T，其Gini计算方式为：