datawhale 10月学习——树模型与集成学习：决策树

本文链接：https://blog.csdn.net/qq_40990057/article/details/120765923

结论速递

本章学习了决策树的生成方法，分为两个要点：

如何分裂训练记录？需要确定选择最佳划分的度量，了解了信息熵，信息增益，信息增益比，基尼系数等概念；也需要确定划分方式，了解了对离散属性、连续属性及缺失属性的处理方式。
如何停止分裂过程？对应预剪枝和后剪枝。

学习了三种常见决策树生成方法，ID3、C4.5和CART树的异同。

0 决策树概述

0.1 决策树

决策树实际上就是一种if-then规则的集合。同时，李航在《统计机器学习》中指出，决策树还表示给定特征条件下类的条件概率分布。

这一条件概率分布定义在特征空间的一个划分（partition）上，将特征空间划分为互不相交的单元（cell）或区域（region），并在每个单元定义一个类的概率分布就构成了一个条件概率分布，决策树的一条路径对应于划分中的一个单元。
决策树所表示的条件概率分布由各个单元给定条件下类的条件概率分布组成。

0.2 决策树的学习

决策树的学习本质上是从训练数据集中归纳出一组分类规则，事实上，和训练数据集不矛盾的决策树可能有很多个，也可能一个也没有。学习决策树的目标是，获得一个与训练数据矛盾较小的决策树，同时这个决策树具有很好的泛化能力。

决策树的学习算法通常是贪心算法，递归地选择最优特征，并根据该特征对训练数据进行分割，使得对各个子数据集有一个最好的分类的过程，这一过程对应着对特征空间的划分，也对应着决策树的构建。

决策树的学习算法包含特征选择、决策树生成与决策树的剪枝过程，由于决策树表示一个条件概率分布，所以深浅不同的决策树对应着不同复杂度的概率模型，决策树的生成对应于模型的局部选择，决策树的剪枝对应于模型的全局选择，决策树的生成只考虑局部最优，相对地，决策树的剪枝则考虑全局最优。

Hunt算法是许多决策树算法的基础。

设 $D_t$ 是与节点 $t$ 相关联的训练记录集，而 $y={y_1,y_2,...,y_c}$ 是类标号，Hunt算法的递归定义如下：

如果 $D_t$ 中所有记录都属于同一个类 $y$ ，则 $t$ 是叶节点，用 $y_t$ 标记。
如果 $D_t$ 中包含属于多个类的记录，则选择一个属性测试条件，将记录划分成较小的子集。对于测试条件的每个输出，创建一个子女节点，并根据测试结果将 $D_t$ 中的记录分布到子女结点中。然后，对于每个子女节点，递归地调用该算法。

决策树的学习算法必须解决下面两个问题：

如何分裂训练记录？需要确定属性测试条件（即选择最佳划分的度量），和分类方法。
选择最佳划分的度量通常是根据划分后子女节点不纯性的程度，这里引入了信息论中信息熵等概念。
如何停止分裂过程？需要有结束条件，以终止决策树的生长过程。

1 信息论基础

1.1 信息熵、条件熵、信息增益

前面提到了，选择决策树每个节点最佳划分的度量，通常是根据划分后子女节点不纯性的程度。

信息熵是用于度量不确定性的函数，在论文《A Mathematical Theory of Communication》中有具体定义，离散信息熵形式如下：
$H(Y)=\Epsilon_Y[-\log_2p(Y)]=-\sum_{k=1}^{K}p(y_k)\log_2p(y_k)$

离散信息熵的最小值为0并且在单点分布时取到，离散熵最大值为 $\log K$ 且在离散均匀分布时取到。

在决策树的分裂过程中，我们不但需要考察节点的不确定性或纯度，还要考察子节点的平均不确定性或平均纯度来决定是否进行分裂。

子节点的产生来源于决策树分支的条件，因此我们要研究在给定条件下随机变量的平均信息熵或条件熵（即条件分布的不确定性）。

$H(Y|X)=\Epsilon_X[\Epsilon_{Y|X}[-\log_2 p(Y|X)]]$

有了信息熵和条件熵的概念定义后，可以定义信息增益（Information Gain），即节点分裂之后带来的不确定性的降低或者纯度的提高。

具体定义为，在得到了随机变量 $X$ 的取值信息后，随机变量 $Y$ 不确定性的平均减小量为

$G (Y, X) = H (Y) - H (Y ∣ X)$

信息增益必定非负，而且如果随机变量Y和X相互独立，无论我们是否知道X的信息，都不会对Y的不确定性产生影响，此时的信息增益为0。

信息增益G(Y,X)在本质上就是p(y,x)关于p(y)p(x)的KL散度

1.2 思考题

证明如下关系：
$G (Y, X) = H (X) - H (X ∣ Y)$ $G (Y, X) = H (X) + H (Y) - H (Y, X)$ $G (Y, X) = H (Y, X) - H (X ∣ Y) - H (Y ∣ X)$

上述均有
左式= $-\sum_{k=1}^{K} \sum_{m=1}^{M}p(y_k,x_m)\log_2{\dfrac{p(y_k)p(x_m)}{p(y_k,x_m)}}$

对式一：
右式= $H (X) - H (X ∣ Y)$
= $\Epsilon_X[-\log_2p(X)]-\Epsilon_Y[\Epsilon_{X|Y}[-\log_2 p(X|Y)]]$
= $-\sum_{m=1}^{M}p(x_m)\log_2p(x_m)-\sum_{k=1}^{K}p(y_k)\sum_{m=1}^{M}p(x_m|y_k)\log_2p(x_m|y_k)$
= $\sum_{k=1}^{K} \sum_{m=1}^{M}p(y_k,x_m)[\log_2{\dfrac {p(y_k,x_m)}{p(y_k)}}-\log_2{p(x_m)}]$
= $-\sum_{k=1}^{K} \sum_{m=1}^{M}p(y_k,x_m)\log_2{\dfrac{p(y_k)p(x_m)}{p(y_k,x_m)}}$
=左式
得证。

对式二：
右式= $H (X) + H (Y) - H (Y, X)$
= $\Epsilon_X[-\log_2p(X)]+\Epsilon_Y[-\log_2p(Y)]-\Epsilon_{(Y,X)~p(y,x)}[-\log_2 p(Y,X)]]$
= $-\sum_{m=1}^{M}p(x_m)\log_2p(x_m)-\sum_{k=1}^{K}p(y_k)\log_2p(y_k)+\sum_{k=1}^{K} \sum_{m=1}^{M}p(y_k,x_m)\log_2(y_k,x_m)$
= $-\sum_{k=1}^{K} \sum_{m=1}^{M}p(y_k,x_m)\log_2(x_m)-\sum_{k=1}^{K} \sum_{m=1}^{M}p(y_k,x_m)\log_2(y_k,)+\sum_{k=1}^{K} \sum_{m=1}^{M}p(y_k,x_m)\log_2(y_k,x_m)$
= $-\sum_{k=1}^{K} \sum_{m=1}^{M}p(y_k,x_m)\log_2{\dfrac{p(y_k)p(x_m)}{p(y_k,x_m)}}$
=左式
得证。

对式三：
右式= $H (Y, X) - H (X ∣ Y) - H (Y ∣ X)$
= $-\sum_{k=1}^{K} \sum_{m=1}^{M}p(y_k,x_m)\log_2(y_k,x_m)+\sum_{k=1}^{K} \sum_{m=1}^{M}p(x_m)\dfrac{p(y_k,x_m)}{p(x_m)}\log_2\dfrac{p(y_k,x_m)}{p(x_m)}+\sum_{k=1}^{K} \sum_{m=1}^{M}p(y_k)\dfrac{p(y_k,x_m)}{p(y_k)}\log_2\dfrac{p(y_k,x_m)}{p(y_k)}$
= $\sum_{k=1}^{K} \sum_{m=1}^{M}p(y_k,x_m)\log_2\dfrac{p(y_k,x_m)}{p(y_k)}\dfrac{p(y_k,x_m)}{p(x_m)}\dfrac{1}{p(y_k,x_m)}$
= $-\sum_{k=1}^{K} \sum_{m=1}^{M}p(y_k,x_m)\log_2{\dfrac{p(y_k)p(x_m)}{p(y_k,x_m)}}$
=左式
得证。

在下图中表示出 $H (X)$ 、 $H (Y)$ 、 $H (X ∣ Y)$ 、 $H (Y ∣ X)$ 、 $H (Y, X)$ 和 $G (Y, X)$

在这里插入图片描述

2 分类树的节点分裂

特征可以分为三种：类别特征、数值特征和含缺失值的特征

2.1 类别特征

在ID3算法中，树的每个节点将选取最大信息增益对应的特征进行分裂。如下图
在这里插入图片描述
通过对比M0-M12和M0-M34，确定合适的分割方式。

在C4.5算法中，使用信息增益比替代了信息增益，分裂方式相同，信息增益比定义为
$G^R(Y,X) = \dfrac{G(Y,X)}{H(X)}$

在C4.5算法中，使用了信息增益比来代替信息增益，其原因在于信息增益来选择的决策树对类别较多的特征具有天然的倾向性，例如当某一个特征X（身份证号码、学号等）的类别数恰好就是样本数量时，此时由于H(Y|X)=0，即G(Y,X)达到最大值，因此必然会优先选择此特征进行分裂，但这样的情况是非常不合理的。

2.2 数值特征

ID3算法不具备处理数值特征的能力，但C4.5算法可以。它有两种处理方式，对应sklearn中的splitter的random和best。

在随机分割法下，取该数值量的上下界，然后做均匀分布，遍历计算，确定最佳二分点，如下表
在最佳分割法下，遍历所有的数据点，选择最佳二分点（为其中一个数据点）

2.3 缺失特征

C4.5算法处理缺失数据的思想非常简单，样本的缺失值占比越大，那么对信息增益的惩罚就越大，这是因为缺失值本身就是一种不确定性成分。

设样本缺失比例为 $\gamma$ ，非缺失的标签和特征分别为 $\tilde Y$ 和 $\tilde X$ ，则修正的信息增益为

$\tilde G(Y,X) = (1-\gamma)G(\tilde Y,\tilde X)$

当数据完全缺失时 $\gamma=1$ ，信息增益为0；当数据没有缺失值时 $\gamma=0$ ，信息增益与原来的值保持一致。

2.4 树的生长

分为深度优先生长和最佳增益生长。

深度优先生长如下图：
在这里插入图片描述
最佳增益生长教程中没有讲得很详细。（待补充）

2.5 思考题

假设当前我们需要处理一个分类问题，请问对输入特征进行归一化会对树模型的类别输出产生影响吗？请解释原因。
如果采用min-max归一化，就不会有影响，因为对数值特征，无论是随机分割法还是最佳分割法，都不受到特征绝对大小的影响。但如果所使用的归一化方法更改了数值特征的分布，则对随机分割法的结果有影响，而对最佳分割法的结果没有影响。
如果将系数替换为 $1−\gamma^2$ ，请问对缺失值是加强了还是削弱了惩罚？
削弱了惩罚，因为 $\gamma$ 始终小于1。
如果将树的生长策略从深度优先生长改为广度优先生长，假设其他参数保持不变的情况下，两个模型对应的结果输出可能不同吗？
理论上不会不同。

3 CART树

CART树可以处理回归问题。

3.1 回归树的分裂度量

采用均方误差（MSE）和平均绝对误差（MAE）来替换熵和条件熵的位置。

3.2 基尼系数GINI

当处理分类问题时，虽然ID3或C4.5定义的熵仍然可以使用，但是由于对数函数log的计算代价较大，CART将熵中的log在p=1处利用一阶泰勒展开，基尼系数定义为熵的线性近似.

$\Epsilon_Y[1-p(Y)] =\sum_{k=1}^{K} \tilde p(y_k)(1-\tilde p(y_k)) =1-\sum_{k=1}^{K} \tilde p^2(y_k)$

类似地定义条件基尼系数为

$\Epsilon_X[\Epsilon_{Y|X}[1-p(Y|X)]]$ $=\sum_{m=1}^{M} \tilde p(x_m) \sum_{k=1}^{K} \tilde p(y_k|x_m)(1-\tilde p(y_k|x_m))$ $=\sum_{m=1}^{M} \tilde p(x_m) [1-\sum_{k=1}^{K} \tilde p^2(y_k|x_m) ]$

从而引出基于基尼系数的信息增益为

$G (Y, X) = G i n i (Y) - G i n i (Y ∣ X)$

下图给出了一个分裂案例
在这里插入图片描述
下图对比了信息增益比和gini系数

由于gini更平滑，因此过拟合的可能性下降。

3.3 思考题

在一般的机器学习问题中，我们总是通过一组参数来定义模型的损失函数，并且在训练集上以最小化该损失函数为目标进行优化。请问对于决策树而言，模型优化的目标是什么？
其实决策树的优化目标也是一样的，也是建立一棵树，使得损失函数最小，这里的损失函数描述的是树的预测结果与数据集的不匹配程度。但是我们这里所涉及到的决策树的增长过程是一个贪心的过程，模型优化的目标就是每一个分裂后子结点纯度最高。
对信息熵中的log函数在p=1处进行一阶泰勒展开可以近似为基尼系数，那么如果在p=1处进行二阶泰勒展开我们可以获得什么近似指标？请写出对应指标的信息增益公式。
（待补）
除了信息熵和基尼系数之外，我们还可以使用节点的 $1−\max _kp(Y=y_k)$ 和第m个子节点的 $1−\max _kp(Y=y_k|X=x_m)$ 来作为衡量纯度的指标。请解释其合理性并给出相应的信息增益公式。
这个其实就是misclassification error，误分类数量。使得误分类数量越小，结点纯度越高。

对应的信息增益公式可以写为 $1−\max _kp(Y=y_k))-(1−\max _kp(Y=y_k|X=x_m))$

4 决策树的剪枝

4.1 决策树的剪枝方法

分为预剪枝和后剪枝。

其中，预剪枝是指树在判断节点是否分裂的时候就预先通过一些规则来阻止其分裂（也就是生成的终止条件），后剪枝是指在树的节点已经全部生长完成后，通过一些规则来摘除一些子树。

在sklearn的CART实现中，一共有6个控制预剪枝策略的参数，它们分别是最大树深度max_depth、节点分裂的最小样本数min_samples_split、叶节点最小样本数min_samples_leaf、节点样本权重和与所有样本权重和之比的最小比例min_weight_fraction_leaf、最大叶节点总数max_leaf_nodes以及之前提到的分裂阈值min_impurity_decrease。

后剪枝有两种做法

用新的叶节点替换子树
用子树中最常用的分支替代子树

下图展示了剪枝的效果
在这里插入图片描述

4.2 思考题

为什么对没有重复特征值的数据，决策树能够做到损失为0？
因为分裂到最后，如果所有的结点都必然为纯的结点（哪怕只有一个数据了，那也是纯的）。
如何理解min_samples_leaf参数能够控制回归树输出值的平滑程度？
控制叶节点最少的数据，可以防止划分得过于细，有效防止过拟合，使得模型更平滑。

5 知识回顾

ID3树算法、C4.5树算法和CART算法之间有何异同？
如下表

在可解决的问题上

方法	ID3	C4.5	CART
分类问题	✔	✔	✔
回归问题	×	×	✔

针对处理属性

方法	ID3	C4.5	CART
离散属性	✔	✔	✔
连续属性	×	✔	✔
缺失属性	×	✔	✔

使用的节点分裂指标为

方法	ID3	C4.5	CART
指标	信息增益	信息增益比	基尼系数

什么是信息增益？它衡量了什么指标？它有什么缺陷？
详见1.1，信息增益就是信息熵-条件熵，衡量了分裂后对结点纯度的提升情况，缺陷是对类别较多的特征有天然的倾向性。
sklearn决策树中的random_state参数控制了哪些步骤的随机性？
根据源码及官方文档
主要控制的是连续属性的分裂阶段中，被用做判断二分结点的数量，主要为了保证生成结果的稳定可复现性。
决策树如何处理连续变量和缺失变量？
对连续变量，采用离散化的操作转化为离散变量问题，离散化方法分为随机法和最佳法，前者是均匀离散，后者则基于原始数据点；对缺失变量，采取对信息增益乘以相应系数的方式，将缺失变量带来的不确定性列入考虑范围。
基尼系数是什么？为什么要在CART中引入它？
基尼系数是信息熵的线性平滑，它可以使得模型更稳定，计算更快，减少过拟合。
什么是树的预剪枝和后剪枝？具体分别是如何操作的？
预剪枝就是分裂提前终止条件，后剪枝是树的简化。