决策树

最新推荐文章于 2025-03-13 13:37:10 发布

_吟游诗人

最新推荐文章于 2025-03-13 13:37:10 发布

阅读量612

点赞数 2

分类专栏：夯实-机器学习文章标签：决策树 python 机器学习算法

本文链接：https://blog.csdn.net/qq_32623363/article/details/111460565

版权

夯实-机器学习专栏收录该内容

19 篇文章

订阅专栏

申明，本部分内容参考了众多网上资料，如有侵权请联系删除。

总体介绍

决策树（decision tree） 是一种基本的分类与回归方法，利用树形结构进行决策。在进行决策过程中，通常会需要进行一系列的判断或“子决策”，而决策过程中提出的每个判定问题都是对某个属性的“测试”，每个测试的结果要么导出最终结论，要么导出进一步的判定问题。
一般的，一颗树包含一个根节点、若干个内部节点和若干个叶节点。叶节点对应于决策结果，其他节点则对应于一个属性测试。决策树学习的目的是产生一颗泛化能力强，即处理未见示例能力强的决策树。
决策树通常有三个步骤：特征选择、决策树的生成、决策树的修剪。
**常见决策树生成算法：**CART、ID3、C4.5、CLS、C5.0等
在这里插入图片描述

如上图所示为决策树的典型示例，“纹理”为根节点，“好瓜”/“坏瓜”为叶子节点，而其他方形节点则为内部节点。

决策树的优点

相比其他算法，决策树不需要进行太过复杂的数据预处理，如标准化、归一化等；
数据值的缺失不会在很大程度上影响决策树的建立；
可解释性强；
天然具备处理多分类问题的能力；
能处理特征间的非线性关系；

决策树的缺点

数据的微小变化可能导致整个树的结构发生巨大的变化，即结构不稳定；
决策树计算过程较其他算法较为复杂；
决策树通常需要花更多时间用于模型训练；
数据集较小时决策树性能不佳；
数据类别不平衡时可能会造成欠拟合；

划分选择

在构建决策树时，要考虑如何选择当前最优划分属性的问题。我们期望生成的决策树在实现有效的分类前提下，分支尽可能少，树的长度尽可能短，即整体尽可能高效。即，我们希望决策树的分支节点所包含的样本尽可能属于同一类别。

分支选择标准

下面介绍几种常见的划分标准。

信息熵与信息增益

在这里插入图片描述

增益率

在这里插入图片描述

基尼系数

在这里插入图片描述

分支选择算法

上面三种分支选择标准，分别对应了ID3、C4.5和CART这三种最常见的决策树分支选择算法。
信息增益、增益率、基尼系数的计算方式参见视频：【数据挖掘】决策树零基础入门教程，手把手教你学决策树！本节不对该过程进行赘述。

ID3

ID3算法采用信息增益作为属性划分标准。
【优点】
a. 分支选取具有可解释性；
b. 在相对短的时间内构建相对短的树；
c. 整棵树分类完毕所需的时间是有限的；
d. 可以发现可以用于剪枝的叶子节点。
【缺点】
a. 信息增益比较偏重于可取值较多的属性（假若为该属性为Id，则选取该属性后信息熵为0）-> 如果样本量较小可能会出现过拟合；
b. 每做一个决定时只能考虑一个属性；

C4.5

由于ID3所采用信息增益会对可取值较多的属性有所偏重，因此C4.5采用增益率作为分类标准。但由于增益率会对可取值较少的属性有所偏重，因此C4.5并不直接选择增益率最大的候选划分属性，而是从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的属性。
【优点】
a. 具有可解释性；
b. 易于实现；
c. 适用于分类或连续值；
d. 能处理噪音数据；
【缺点】
a. 数据中小变化可能会影响整棵树的结构；
b. 在小数据集上效果不佳；

CART

CART采用基尼指数作为划分标准，每次选择划分后基尼指数最小的属性作为划分属性。
注意，CART是在这三类分支选择算法中唯一一个支持回归预测的模型，对于回归预测，它采用均方差作为评估指标。需要注意的是，CART是二分类模型，假使包含一个属性，有多个取值，如工资=[高，中，低]，那么它每次分支选择将是 (工资=高)或（工资=中）或（工资=低）。即CART构建的是二叉树。
【优点】
a. 天然具有多分类特性；
b. 可解释性；
c. 能处理数字、类型数据；
d. 非线性关系不影响决策树性能表现；
【缺点】
a. 数据中小变化可能会影响整棵树结构；
b. 如果数据类型不平衡，可能会造成欠拟合；

剪枝

**剪枝（puring）**是决策树应对过拟合的主要手段。基本剪枝策略包含：预剪枝（prepurning）和后剪枝（postpurning）。
预剪枝：在决策树生成过程中，对每个节点在划分前进行估计，如果该节点的划分不能带来决策树泛化能力的提升，则停止划分并将该节点置为叶子节点；
后剪枝：先从训练集生成一颗完整的决策树，然后自底向上对非叶子节点进行考察，若该节点对应的子树节点替换成叶节点能提高泛化能力，则将其进行替换。
评估剪枝能否提高泛化能力，可以从训练集中取一部分作为验证集，用其来检验划分前后模型的性能，若性能更好，则划分，否则不划分。
预剪枝过程中，若需要判断的节点的子节点不是叶子节点，则可以对其每个取值中的数据分别采用投票法（即数量最多的那个）作为其预测值，来验证分类后的模型表现。预剪枝降低了过拟合的风险，减少了决策树的训练时间和测试时间开销，但不保证被剪掉的属性不能提升其精度，即可能带来欠拟合的风险。
后剪枝则自底向上分别对非叶子节点进行考察，同样适用验证集进行性能评估，若将其替换为叶子节点后性能提升，则将其替换，若替换后性能不变，也要替换（奥卡姆剃刀原理）。后剪枝通常比预剪枝能保留更多的分支，欠拟合风险很小，泛化能力优于预剪枝决策树，但其所需的时间开销会比预剪枝决策树更大。

连续与缺失值

连续值

连续值属性的可取值范围是无限的，因此需要对连续数值进行离散化。常见的离散化方法为二分法，这也是C4.5中所用到的策略，二分法的方法如下：
在这里插入图片描述

注意，对样本中n个取值，需要进行n-1次二分，分别对这n-1次二分计算最大信息增益，从而确定二分的位置。
注：不同于离散属性，连续属性仍可作为其后代属性的划分属性。

缺失值

数据集中存在缺失值时往往需要面对两个问题：
（1）如何在属性缺失的情况下进行划分属性选择？
（2）给定划分属性，若样本在该属性上的值缺失，该如何对该样本进行划分？
对于第一个问题，给出如下定义，其中为训练集D中取出来的在a属性上不存在缺失值的样本子集，为的一个子集划分，代表其中取值为的样本子集，是中属于第k类的样本子集：
在这里插入图片描述
基于上述定义，推广信息增益：