决策树——（三）决策树的生成与剪枝CART

最新推荐文章于 2023-09-12 20:04:27 发布

空字符（公众号：月来客栈）

最新推荐文章于 2023-09-12 20:04:27 发布

阅读量2.1k

点赞数 1

分类专栏：机器学习文章标签：算法 cart算法决策树算法

本文链接：https://blog.csdn.net/The_lastest/article/details/78975439

版权

本文介绍了CART算法，一种用于分类和回归的决策树学习方法。CART算法基于基尼指数划分数据集，生成二叉树。它包括决策树生成和剪枝两个步骤。在生成阶段，通过计算基尼指数选择最佳划分特征。在剪枝阶段，使用损失函数最小化选择最优子树。文章还详细阐述了分类树的基尼指数计算和生成算法，并讨论了剪枝过程。

摘要由CSDN通过智能技术生成

前面两篇文章分别介绍了用ID3和C4.5这两种算法来生成决策树。其中ID3算法每次用信息增益最大的特征来划分数据集，C4.5算法每次用信息增益比最大的特征来划分数据集。下面介绍另外一种采用基尼指数为标准的划分方法，CART算法。

1. CART算法

分类与回归算法(Classification and Regression Tree,CART)，即可以用于分类也可以用于回归，是应用广泛的决策树学习方法。CART假设决策树是二叉树，内部结点特征的取值为“是”和“否”，左分支是取值为“是”的分支，右分支是取值为“否”的分支。这样的决策树等价与递归地二分每个特征，将输入空间即特征空间划分为有限个单元。

CART算法由以下两步组成：
（1）决策树生成：基于训练数据集生成决策树，生成的决策树要尽量最大；
（2）决策树剪枝：用验证集对已生成的树进行剪枝并选择最优子树，这时用损失函数最小作为剪枝标准。

2. 分类树

在介绍分类树的生成算法前，我们先介绍一下划分标准基尼指数。

2.1 基尼指数

分类问题中，假设由 $K$ 个类，样本点属于第 $k$ 类的概率为 $\large p_{\small k}$ ，则概率分布的基尼指数定义为：
$Gini(p)=\sum_{k=1}^K\large p_{\small k}(1-\large p_{\small k})=1-\sum_{k=1}^K\large p_{\small k}^2\tag{2.1}$

因此，对于给定的样本集合 $D$ ，其基尼指数为：
$Gini(D)=1-\sum_{k=1}^K\left(\frac{|C_k|}{|D|}\right)^2\tag{2.2}$

其中， $C_k$ 是 $D$ 中属于地 $k$ 类的样本子集， $K$ 是类的个数。

如果样本集合 $D$ 根据特征 $A$ 是否取某一可能值 $a$ 被分割成 $D_1,D_2$ 两个部分，即
$D_1=\{(x,y)\in D|A(x)=a\},D_2=D-D_1$

则在特征 $A$ 的条件下，集合 $D$ 的基尼指数定义为
$Gini(D,A)=\frac{|D_1|}{|D|}Gini(D_1)+\frac{|D_2|}{|D|}Gini(D_2)\tag{2.3}$

基尼指数 $G i n i (D)$ 表示集合 $D$ 的不确定性，即表示经 $A = a$ 分割后集合 $D$ 的不确定性。基尼指数越大，样本集合的不确定性也就越大，这点与熵相似。

下图是基尼指数，熵之半 $\frac{1}{2}H(p)$ 和分类误差率之间的关系。横坐标表示概率，纵坐标表示损失。可以看出基尼指数和熵之半的曲线很接近，都可以近似的表示分类误差率。

这里写图片描述

2.2 生成算法

输入：训练数据集 $D$ ，停止计算条件；
输出：CART决策树

根据训练集，从根节点开始，递归地对每个结点进行一下操作，构建二叉决策树：
（1）设结点的训练集为 $D$ ，利用公式 $(2.2)$ 计算现有特征对该数据集的基尼指数。此时，对每一个特征 $A$ ，对其可能的每一个值 $a$ ，根据样本点对 $A = a$ 的测试值为“是”或“否”将 $D$ 分割成 $D_1,D_2$ 两个部分，利用公式 $(2.3)$ 计算 $A = a$ 时的基尼指数；
（2）在所有可能的特征 $A$ 以及它们所有可能的切分点 $a$ 中，选择基尼指数最小的特征最为划分标准将原有数据集划分为两个部分并分配到两个子结点中去。
（3）对两个子结点递归的调用(1),(2)，直到满足停止条件；
（4）生成CART决策树
其中，算法停止计算的条件是：结点中的样本点个数小于预定阈值，或样本集的基尼指数小于预定阈值（也就是说此时样本基本属于同一类），或者没有更多特征。

同样我们还是拿之前的数据集来走一遍生成流程：

$\begin{array}{c|cc} \hline ID&\text{年龄}&\text{有工作}&\text{有自己的房子}&\text{贷款情况}&\text{类别}\\ \hline 1&\text{青年}&\text{否}&\text{否}&\text{一般}&\text{否}\\ 2&\text{青年}&\text{否}&\text{否}&\text{好}&\text{否}\\ 3&\text{青年}&\text{是}&\text{否}&\text{好}&\text{是}\\ 4&\text{青年}&\text{是}&\text{是}&\text{一般}&\text{是}\\ 5&\text{青年}&\text{否}&\text{否}&\text{一般}&\text{否}\\ \hline 6&\text{中年}&\text{否}&\text{否}&\text{一般}&\text{否}\\ 7&\text{中年}&\text{否}&\text{否}&\text{好}&\text{否}\\ 8&\text{中年}&\text{是}&\text{是}&\text{好}&\text{是}\\ 9&\text{中年}&\text{否}&\text{是}&\text{非常好}&\text{是}\\ 10&\text{中年}&\text{否}&\text{是}&\text{非常好}&\text{是}\\ \hline 11&\text{老年}&\text{否}&\text{是}&\text{非常好}&\text{是}\\ 12&\text{老年}&\text{否}&\text{是}&\text{好}&\text{是}\\ 13&\text{老年}&\text{是}&\text{否}&\text{好}&\text{是}\\ 14&\text{老年}&\text{是}&\text{否}&\text{非常好}&\text{是}\\ 15&\text{老年}&\text{否}&\text{否}&\text{一般}&\text{否}\\ \hli$

最低0.47元/天解锁文章

空字符（公众号：月来客栈）

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
决策树——（三）决策树的生成与剪枝CART

前面两篇文章分别介绍了用ID3和C4.5这两种算法来生成决策树。其中ID3算法每次用信息增益最大的特征来划分数据集，C4.5算法每次用信息增益比最大的特征来划分数据集。下面介绍另外一种采用基尼指数为标准的划分方法，CART算法。1. CART算法分类与回归算法(Classification and Regression Tree,CART)，即可以用于分类也可以用于回归，是应用广泛的决策树
复制链接

扫一扫

专栏目录