机器学习——决策树（笔记）

CXDNW

已于 2024-08-30 00:41:32 修改

阅读量1.3k

点赞数 9

分类专栏：机器学习文章标签：机器学习决策树人工智能算法数据挖掘树

于 2024-07-11 01:37:09 首次发布

本文链接：https://blog.csdn.net/cxdnw/article/details/140337892

版权

机器学习专栏收录该内容

15 篇文章 0 订阅

订阅专栏

（1）信息增益（Information Gain）

（2）基尼不纯度（Gini Impurity）

（3）均方误差（Mean Squared Error）

二、sklearn中的决策树

1. tree.DecisionTreeClassifier（分类树）

（1）模型基本参数

（2）模型属性

（3）接口

2. tree.DecisionTreeRegressor（回归树）

（1）算法原理

（2）重要参数：criterion

3. tree.export_graphviz（将生成的决策树导出为DOT格式，画图专用）

一、认识决策树

1. 介绍

决策树（Decision Tree）是一种非参数的有监督学习方法，它能够从一系列 有特征和标签的数据中总结出决策规则，并用树状图的结构来呈现这些规则，以解决分类和回归问题。决策树算法容易理解，适用各种数据，在解决各种问题时都有良好表现，尤其是以树模型为核心的各种集成算法，在各个行业和领域都有广泛的应用。

2. 决策树生成过程

上面这组数据集为 一系列已知物种以及所属类别的数据。我们现在的目标是，将动物们分为哺乳类和非哺乳类。根据已经收集到的数据，决策树算法可以算出了下面的这棵决策树：

假如我们现在发现了一种新物种 A，它是冷血动物，体表带鳞片，并且不是胎生，我们就可以通过这棵决策树来判断它的 所属类别。

涉及关键概念：节点

① 根节点：没有进边，有出边。包含最初的，针对特征的提问。

② 中间节点：既有进边也有出边，进边只有一条，出边可以有很多条。都是针对特征的提问。

③ 叶子节点：有进边，没有出边，每个叶子节点都是一个类别标签。

④ 子节点和父节点：在两个相连的节点中，更接近根节点的是父节点，另一个是子节点。

3. 基本工作原理描述

（1）根节点

开始时，整个数据集视为一个根节点。在根节点上，选择一个特征，将数据集分割成多个子集。选择的特征是基于某种度量标准，通常是根据信息增益（Entropy）、基尼不纯度（Gini Impurity）或均方误差（Mean Squared Error）等来进行选择。

（2）分支节点

接下来，每个子集都被视为一个分支节点，并在分支节点上选择另一个特征，再次将数据集分割成更小的子集。这个过程递归地进行下去，直到达到某个停止条件，如达到最大深度、节点中的样本数小于阈值，或者节点的不纯度低于阈值。

（3）叶子节点

当不再进行分割时，节点被标记为叶子节点，叶子节点中包含一个最终的类别标签（对于分类问题）或回归值（对于回归问题）。这个值是根据该节点上的数据集的主要类别（对于分类问题）或平均目标值（对于回归问题）来确定的。

（4）预测

一旦构建了决策树，对新的未见样本进行预测时，从根节点开始根据特征的值遍历树的分支，直到达到叶子节点。然后，将叶子节点的类别标签或回归值作为预测结果。

4. 划分准则

（1）信息增益（Information Gain）

信息增益是用于分类问题的常见划分准则，它基于信息论的概念。在每个节点上，根据特征的取值将数据集分成多个子集，然后计算每个子集的熵（Entropy），然后计算信息增益，它是父节点熵与子节点熵之差。信息增益越大，意味着划分后的数据更加纯净，更有助于分类。

熵的计算：

对于节点 $t$ ， $p_i$ 表示类别 $i$ 在节点 $t$ 中的样本比例。 $c$ 表示类别的数量。

熵的值在 0 和 1 之间，越接近 0 表示节点越纯净，越接近 1 表示节点的不纯度越高。

信息增益的计算：

$D$ 是父节点的数据集， $A$ 是要划分的特征，Values( $A$ ) 是特征 $A$ 的取值集合， $D_v$ 是特征 $A$ 取值为 $v$ 时的子节点数据集。

选择信息增益最大的特征作为划分特征，可以使用熵的减少量来衡量。信息增益的问题是它偏向于选择具有较多取值的特征。

（2）基尼不纯度（Gini Impurity）

基尼不纯度是另一种用于分类问题的划分准则。在每个节点上，根据特征的取值将数据集分成多个子集，然后计算每个子集的基尼不纯度，它 表示从该子集中随机选择两个样本，它们的类别标签不一致的概率。基尼不纯度越低，表示子节点的纯度越高。

基尼不纯度的计算：

$c$ 表示类别的数量。基尼不纯度的值在 0 和 1 之间，越接近 0 表示节点越纯净，越接近 1 表示节点的不纯度越高。

选择基尼不纯度最低的特征作为划分特征。基尼不纯度相对于信息增益更加偏好选择取值较少的特征，因此在某些情况下，它可能会对多分类问题更有利。

（3）均方误差（Mean Squared Error）

均方误差是用于回归问题的划分准则。在每个节点上，根据特征的取值将数据集分成多个子集，然后计算每个子集中目标变量的均方误差。均方误差越低，表示子节点的目标变量值更接近于均值，模型对数据的拟合越好。

二、sklearn中的决策树

涉及模块：sklearn.tree

1. tree.DecisionTreeClassifier（分类树）

（1）模型基本参数

（2）模型属性

（3）接口

2. tree.DecisionTreeRegressor（回归树）

（1）算法原理

决策树回归是一种基于树结构的回归模型，它通过将特征空间划分为不同的区域，每个区域内具有相同的目标变量值，并通过构建决策树来实现预测。决策树回归的关键思想是根据特征的取值进行划分，选择最优的划分特征和划分点，使得划分后的子集内目标变量的方差最小化。具体的算法原理如下：

计算当前节点的目标变量的方差，即平方误差和；
对每个特征的每个可能取值进行划分，计算划分后的子集的平方误差和；
选择划分特征和划分点，使得划分后的平方误差和最小；
递归地继续划分子集，直到满足停止条件，例如达到最大深度、节点包含的样本数小于某个阈值等。

决策树回归的算法过程可以通过递归地构建二叉树来实现，其中 每个节点代表一个特征变量，每个叶节点代表一个预测值。为了找到最佳划分特征和划分点，我们可以使用贪婪算法，依次评估每个特征的每个划分点，并选择最小的平方误差和。

（2）重要参数：criterion

回归树衡量分枝质量的指标，支持的标准有三种：

① 输入“mse”使用均方误差mean squared error（MSE），父节点和叶子节点之间的均方误差的差额将被用来作为特征选择的标准，这种方法通过使用叶子节点的均值来最小化 L2损失。

② 输入“friedman_mse”，使用费尔德曼均方误差，这种指标使用弗里德曼针对潜在分枝中的问题改进后的均方误差。

③ 输入“mae”使用绝对平均误差MAE （mean absolute error），这种指标使用叶节点的中值来最小化 L1损失。

3. tree.export_graphviz（将生成的决策树导出为DOT格式，画图专用）

4. 其他（补充）

① 信息熵的计算比基尼系数缓慢一些，因为基尼系数的计算不涉及对数。另外，因为信息熵对不纯度更加敏感，所以信息熵作为指标时，决策树的生长会更加“精细”，因此对于高维数据或者噪音很多的数据，信息熵很容易过拟合，基尼系数在这种情况下效果往往比较好。

② random_state用来设置分枝中的随机模式的参数，默认None，在高维度时随机性会表现更明显，低维度的数据（比如鸢尾花数据集），随机性几乎不会显现。输入任意整数，会一直长出同一棵树，让模型稳定下来。

③ splitter也是用来控制决策树中的随机选项的，有两种输入值，输入“best”，决策树在分枝时虽然随机，但是还是会优先选择更重要的特征进行分枝（重要性可以通过属性feature_importances_查看），输入“random”，决策树在分枝时会更加随机，树会因为含有更多的不必要信息而更深更大，并因这些不必要信息而降低对训练集的拟合。

④ 在不加限制的情况下，一棵决策树会生长到衡量不纯度的指标最优，或者没有更多的特征可用为止，这样的决策树往往会过拟合。为了让决策树有更好的泛化性，需要要对决策树进行剪枝。剪枝策略对决策树的影响巨大，正确的剪枝策略是优化决策树算法的核心。

三、决策树的优缺点

1. 优点

    ① 易于理解和解释，因为树木可以画出来被看见。

    ② 需要很少的数据准备。其他很多算法通常都需要数据规范化，需要创建虚拟变量并删除空值等。但 sklearn中的决策树模块不支持对缺失值的处理。

    ③ 使用树的成本（比如说，在预测数据的时候）是用于训练树的数据点的数量的对数，相比于其他算法，这是一个很低的成本。

    ④ 能够同时处理数字和分类数据，既可以做回归又可以做分类。其他技术通常专门用于分析仅具有一种变量类型的数据集。

    ⑤ 能够处理多输出问题，即含有多个标签的问题（注意与一个标签中含有多种标签分类的问题区别开）

    ⑥ 是一个白盒模型，结果很容易能够被解释。如果在模型中可以观察到给定的情况，则可以通过布尔逻辑轻松解释条件。相反，在黑盒模型中（例如，在人工神经网络中），结果可能更难以解释。

    ⑦ 可以使用统计测试验证模型，这让我们可以考虑模型的可靠性。即使其假设在某种程度上违反了生成数据的真实模型，也能够表现良好。

2. 缺点

    ① 决策树学习者可能创建过于复杂的树，这些树不能很好地推广数据。这称为过度拟合。修剪，设置叶节点所需的最小样本数或设置树的最大深度等机制是避免此问题所必需的。

    ② 决策树可能不稳定，数据中微小的变化可能导致生成完全不同的树，这个问题需要通过集成算法来解决。

    ③ 决策树的学习是基于贪婪算法，它靠优化局部最优（每个节点的最优）来试图达到整体的最优，但这种做法不能保证返回全局最优决策树。这个问题也可以由集成算法来解决，在随机森林中，特征和样本会在分枝过程中被随机采样。

    ④ 有些概念很难学习，因为决策树不容易表达它们，例如 XOR，奇偶校验或多路复用器问题。

    ⑤ 如果标签中的某些类占主导地位，决策树学习者会创建偏向主导类的树。因此，建议在拟合决策树之前平衡数据集。

CXDNW

关注

9
点赞
踩
22

收藏

觉得还不错? 一键收藏
1
评论
机器学习——决策树（笔记）

决策树（Decision Tree）是一种非参数的有监督学习方法，它能够从一系列有特征和标签的数据中总结出决策规则，并用树状图的结构来呈现这些规则，以解决分类和回归问题。决策树算法容易理解，适用各种数据，在解决各种问题时都有良好表现，尤其是以树模型为核心的各种集成算法，在各个行业和领域都有广泛的应用。
复制链接

扫一扫

专栏目录