决策树算法详解：ID3、C4.5与CART对比及剪枝策略-CSDN博客

本文链接：https://blog.csdn.net/qq_38147421/article/details/115358691

在这里插入图片描述

一、决策树

1.0 基本概念介绍：

树模型:
决策树：从根节点开始一步步走到叶子节点（决策）
所有数据最终都会落到叶子节点，既可以做分类也可以做回归。
在这里插入图片描述

1.1 原理

决策树是一种基本的分类与回归方法，其模型就是用一棵树来表示我们的整个决策过程。这棵树可以是二叉树（比如CART 只能是二叉树），也可以是多叉树（比如 ID3、C4.5 可以是多叉树或二叉树）。根节点包含整个样本集，每个叶节都对应一个决策结果（注意，不同的叶节点可能对应同一个决策结果），每一个内部节点都对应一次决策过程或者说是一次属性测试。从根节点到每个叶节点的路径对应一个判定测试序列。

举个例子：
在这里插入图片描述
就像上面这个例子，训练集由三个特征：outlook(天气)，humidity（度），windy（是否有风）。那么我们该如何选择特征对训练集进行划分？连续型特征（比如湿度）划分的阈值又是如何确定的？

如何切分特征呢（选择节点）？
问题：根节点的选择该用哪个特征呢？接下来呢？如何切分？
操作：目标节点应该是根节点就像老大一样，能够更好的切分数据（即分类的效果更好），接着选二当家，老三，老四…这也就是通过衡量标准，选出老大，老二，老三，老四…

决策树的生成就是不断的选择最优的特征对训练集进行划分，是一个递归的过程。递归返回的条件有三种：

1.当前节点包含的样本属于同一类别，无需划分；
2. 当前属性集为空，或所有样本在属性集上取值相同，无法划分；
3. 当前节点包含样本集合为空，无法划分。

1.2 ID3、C4.5、CART

这三个是非常著名的决策树算法。简单粗暴来说:

ID3 使用信息增益作为选择特征的准则；
C4.5 使用信息增益比作为选择特征的准则；
CART 使用 Gini 指数作为选择特征的准则。

1.2.0 基本概念

熵——衡量标准

在信息论与概率论中，熵用于表示随机变量不确定性的度量。

设X是一个有限状态的离散型随机变量，其概率分布为:
在这里插入图片描述

条件熵

在这里插入图片描述

信息增益

信息增益表示的是：得知特征X的信息而使得类Y的信息的不确定性减少的程度。
在这里插入图片描述

1.2.1 ID3

举个例子：
在这里插入图片描述一行表示一个样本X，①②③④为特征，ID也为一个特征（后面会说为什么引入ID作为一个特征）。play表示y。

在这里插入图片描述根据每个特征做大当家的信息增益来看效果。谁的信息增益大，谁当老大。
比如先看机天气当老大：如下图，计算出信息增益。再分贝计算出温度、适度湿度、风当老大的时候的信息增益。
结果为天气为大当家。在这里插入图片描述然后找出二当家。重复上述步骤。

总结下ID3：
熵表示的是数据中包含的信息量大小。熵越小，数据的纯度越高，也就是说数据越趋于一致，这是我们希望的划分之后每个子节点的样子。

信息增益 = 划分前熵 - 划分后熵。信息增益越大，则意味着使用属性a来进行划分所获得的 “纯度提升” 越大。也就是说，用属性a来划分训练集，得到的结果中纯度比较高。

ID3优点是理论清晰、方法简单、学习能力较强，
但也存在一些缺点：
- 只能处理分类属性的数据，不能处理连续的数据，即只能处理离散数据；
- 划分过程会由于子集规模过小而造成统计特征不充分而停止；
- ID3算法在选择根节点和各内部节点中的分支属性时，采用信息增益作为评价标准。信息增益的缺点是倾向于选择取值较多的属性，在有些情况下这类属性可能不会提供太多有价值的信息。

上述ID3最大的问题是:如果把ID当做特征，计算出来的熵值很低，导致信息增益很大，但是把ID作为特征其实并不合适，这就是最大的问题，因此引出C4.5。

1.2.2 C4.5（解决ID3的问题，考虑自身熵）

C4.5 克服了 ID3 仅仅能够处理离散属性的问题，以及信息增益偏向选择取值较多特征的问题，使用信息增益比来选择特征。信息增益比 = 信息增益 / 自身熵（划分前熵） ，选择信息增益比最大的作为最优特征。

比如上述的问题，在ID特征上，虽然信息增益很大，但是自身熵值极大，因此整体信息增益比就小，所以用ID作为特征也就不合适了。解决了该问题。

C4.5 处理连续特征是先将特征取值排序，以连续两个值中间值作为划分标准。尝试每一种划分，并计算修正后的信息增益，选择信息增益最大的分裂点作为该属性的分裂点。

1.2.3 CART

CART 与 ID3，C4.5 不同之处在于 CART 生成的树必须是二叉树。也就是说，无论是回归还是分类问题，无论特征是离散的还是连续的，无论属性取值有多个还是两个，内部节点只能根据属性值进行二分。

CART 的全称是分类与回归树（classification and regression tree）。从这个名字中就应该知道，CART 既可以用于分类问题，也可以用于回归问题。

CART回归树

在这里插入图片描述

CART分类树

使用 Gini 指数最小化准则来选择特征并进行划分；Gini 指数表示集合的不确定性，或者是不纯度。基尼指数越大，集合不确定性越高，不纯度也越大。这一点和熵类似。另一种理解基尼指数的思路是，基尼指数是为了最小化误分类的概率。
在这里插入图片描述

1.3 信息增益 vs 信息增益比

之所以引入了信息增益比，是由于信息增益的一个缺点。那就是：信息增益总是偏向于选择取值较多的属性。信息增益比在此基础上增加了一个罚项，解决了这个问题。

1.4 Gini 指数 vs 熵

既然这两个都可以表示数据的不确定性，不纯度。那么这两个有什么区别那？

Gini 指数的计算不需要对数运算，更加高效；
Gini 指数更偏向于连续属性，熵更偏向于离散属性。

二、剪枝

在这里插入图片描述

决策树算法很容易过拟合（overfitting），剪枝算法就是用来防止决策树过拟合，提高泛化性能的方法，剪枝分为预剪枝与后剪枝。

2.1 预剪枝

预剪枝是指在决策树的生成过程中，对每个节点在划分前先进行评估，若当前的划分不能带来泛化性能的提升，则停止划分，并将当前节点标记为叶节点。

预剪枝的方法：

树的深度
叶子节点的个数/叶子节点样本数
信息增益等

2.2 后剪枝

后剪枝是指先从训练集生成一颗完整的决策树，然后自底向上对非叶节点进行考察，若将该节点对应的子树替换为叶节点，能带来泛化性能的提升，则将该子树替换为叶节点。

相比于预剪枝，后剪枝方法通常可以得到泛化能力更强的决策树，但是时间开销会很大。

那么怎么来判断是否带来泛化性能的提升呢？最简单的就是留出法，即预留一部分数据作为验证集来进行性能评估。交叉验证。

2.3 预剪枝和后剪枝的比较

在这里插入图片描述

三、总结

3.1 决策树的三个流程

决策树算法主要包括三个部分：特征选择、树的生成、树的剪枝。常用算法有 ID3、C4.5、CART。

特征选择。特征选择的目的是选取能够对训练集分类的特征。特征选择的关键是准则：信息增益、信息增益比、Gini 指数；
决策树的生成。通常是利用信息增益最大、信息增益比最大、Gini 指数最小作为特征选择的准则。从根节点开始，递归的生成决策树。相当于是不断选取局部最优特征，或将训练集分割为基本能够正确分类的子集；
决策树的剪枝。决策树的剪枝是为了防止树的过拟合，增强其泛化能力。包括预剪枝和后剪枝。