数据分析算法（一）：决策树

最新推荐文章于 2021-07-05 15:46:37 发布

Jzkuan

最新推荐文章于 2021-07-05 15:46:37 发布

阅读量665

点赞数 1

分类专栏：数据分析文章标签：决策树算法数据分析信息熵机器学习

本文链接：https://blog.csdn.net/qq_43407763/article/details/113181279

版权

数据分析专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文章目录

一、相关概念
二、相关算法
三、总结

一、相关概念

信息熵

$H(D)=-\sum_{k=1}^{k} \frac{\left|C_{k}\right|}{|D|} \log _{2} \frac{\left|C_{k}\right|}{|D|}$

其中， $\left|D\right|$ 表示事件中的所有样本点， $\left|C_{K}\right|$ 表示事件的第 $k$ 个可能值出现的次数，所以商值表示第 $k$ 个可能值出现的频率。当不

确定性越大时，它所包含的信息量也就越大，信息熵也就越高。

条件熵

基于其他事件计算某个事件的熵，就称为条件熵。条件熵并不等同于条件概率，它是已知事件各取值下条件熵的期望。公式如

下：

$\begin{aligned} \operatorname{H}(D\mid A) &=\sum_{i, k} P\left(A_{i}\right) \operatorname{H}\left(D_{k} \mid A_{i}\right) \\ &=\sum_{i, k} P\left(A_{i}\right) P\left(D_{k} \mid A_{i}\right) \log _{2} P\left(D_{k} \mid A_{i}\right) \\ &=\sum_{i=1}^{n} \frac{\left|D_{i}\right|}{|D|} \sum_{k=1}^{k} \frac{\left|D_{ik}\right|}{\left|D_{i}\right|} \log _{2} \frac{\left|D_{ik}\right|}{\left|D_{i}\right|}\\ \end{aligned}$

其中， $P\left(A_{i}\right)$ 表示 A事件的第i种值对应的概率

$P\left(D_{k} \mid A_{i}\right)$ 为已知 $A_{i}$ 的情况下， $D$ 事件为 $k$ 值的条件熵，其对应的计算公式为： $P\left(D_{k} \mid A_{i}\right) \log _{2} P\left(D_{k} \mid A_{i}\right)$

$\left|D_{i}\right|$ 表示 $A_{i}$ 的频数，表示 $A_{i}$ 在所有样本中的频率

$\left|D_{i k}\right|$ 表示 $A_{i}$ 下 $D$ 事件为 $k$ 值的频数，表示所有 $A_{i}$ 中， $D$ 事件为 $k$ 值的频率。

信息增益

信息增益指的就是划分可以带来纯度的提高，信息熵的下降。它的计算公式，是父亲节点的信息熵减去所有子节点的信息熵，每

一步下降的量就称为信息增益。他的计算公式表示为：

$\operatorname{Gain}(D, A)=H(D)-H(D \mid A)$

由如上公式可知，对于已知的事件 $A$ 来说，事件 $D$ 的信息增益就是 $D$ 的信息熵与 $A$ 事件下 $D$ 的条件熵之差，事件 $A$ 对事件 $D$ 的影

响越大，条件熵 $H (D ∣ A)$ 就会越小（在事件 $A$ 的影响下，事件 $D$ 被划分得越“纯净”），体现在信息增益上就是差值越大，进而说

明事件 $D$ 的信息熵下降得越多。所以，在根节点或中间节点的变量选择过程中，就是挑选出各自变量下因变量的信息增益最大

的。

信息增益率

为了克服信息增益指标的缺点，有人提出了信息增益率的概念，它的思想很简单，就是在信息增益的基础上进行相应的惩罚。信

息增益率的公式可以表示为：

$\text { GainRatio }(D,A)=\frac{\operatorname{Gain}(D,A)}{H(A)}$

其中， $H (A)$ 为事件 $A$ 的信息熵。事件 $A$ 的取值越多， $G a i n (D, A)$ 可能越大，但同时 $H (A)$ 也会越大，这样以商的形式就实现

了 $G a i n (D, A)$ 的惩罚。

基尼系数

基尼系数本身反应了样本的不确定度。当基尼系数越小的时候，说明样本之间的差异性小，不确定程度低。分类的过程本身是一

个不确定度降低的过程，即纯度的提升过程。所以 CART 算法在构造分类树的时候，会选择基尼系数最小的属性作为属性的划

分。基尼指数的计算公式可以表示为：

$\operatorname{Gini}\left(p_{1}, p_{2}, \cdots p_{k}\right)=\sum_{k=1}^{K} p_{k}\left(1-p_{k}\right)=\sum_{k=1}^{K}\left(p_{k}-p_{k}^{2}\right)=1-\sum_{k=1}^{K} p_{k}^{2}$

其中， $p_k$ 表示某事件第 $k$ 个可能值的发生概率，该概率可以使用经验概率表示，所以基尼指数可以重写为：

$\operatorname{Gini}(D)=1-\sum_{k=1}^{K}\left(\frac{\left|C_{k}\right|}{|D|}\right)^{2}$

其中， $∣ D ∣$ 表示事件中的所有样本点， $C_k|$ 表示事件的第 $k$ 个可能值出现的次数，所以概率值 $p_k$ 就是所表示的频率。

条件基尼系数

条件基尼指数仍然是某变量各取值下条件基尼指数的期望，所不同的是，条件基尼指数采用的是二分法原理。对于三个及以上不

同值的离散变量来说，在计算条件基尼指数时会稍微复杂一些，因为该变量在做二元划分时会产生多对不同的组合。所以在计算

条件基尼指数时就需要考虑三种及以上组合的值，最终从三种值中挑选出最小的作为该变量的二元划分。条件基尼指数的计算公

式可以表示为：

$\begin{aligned} \operatorname{Gini}(D\mid A) &=\sum_{i, k} P\left(A_{i}\right) \operatorname{Gini}\left(D_{k} \mid A_{i}\right) \\ &=\sum_{i=1}^{2} P\left(A_{i}\right)\left(1-\sum_{k=1}^{K}\left(p_{i k}\right)^{2}\right) \\ &=\sum_{i=1}^{2} P\left(\frac{\left|D_{i}\right|}{|D|}\right)\left(1-\sum_{k=1}^{K}\left(\frac{\left|D_{i k}\right|}{\left|D_{i}\right|}\right)^{2}\right) \end{aligned}$

其中， $P(A_i)$ 表示 $A$ 变量在某个二元划分下第 $i$ 组的概率，其对应的经验概率为 $\frac{\left|D_{i}\right|}{|D|}$ ，即 $A$ 变量中第 $i$ 组的样本量与总样本量的商

$Gini(D_{k}|A_i)$ 表示在已知分组 $A_i$ 的情况下，变量 $D$ 取第 $k$ 种值的条件基尼指数

其中， $\frac{\left|D_{ik}\right|}{|D_i|}$ 表示分组Ai内变量D取第k种值的频率。

基尼系数下降速度

与信息增益类似，还需要考虑自变量对因变量的影响程度，即因变量的基尼指数下降速度的快慢，下降得越快，自变量对因变量

的影响就越强。下降速度的快慢可用下方式子衡量：

$\triangle \operatorname{Gini}(D)=\operatorname{Gini}(D)-\operatorname{Gini}(D\mid A)$

二、相关算法

我们以打篮球的数据集为例，详细说明决策树的分析步骤

$\begin{array}{|c|c|c|c|c|} \hline \text { 天气 } & \text { 温度 } & \text { 湿度 } & \text { 刮风 } & \text { 是否打篮球 } \\ \hline \text { 晴天 } & \text { 高 } & \text { 中 } & \text { 否 } & \text { 否 } \\ \hline \text { 晴天 } & \text { 高 } & \text { 中 } & \text { 是 } & \text { 否 } \\ \hline \text { 阴天 } & \text { 高 } & \text { 高 } & \text { 否 } & \text { 是 } \\ \hline \text { 小雨 } & \text { 高 } & \text { 高 } & \text { 否 } & \text { 是 } \\ \hline \text { 小雨 } & \text { 低 } & \text { 高 } & \text { 否 } & \text { 否 } \\ \hline \text { 晴天 } & \text { 中 } & \text { 中 } & \text { 是 } & \text { 是 } \\ \hline \text { 阴天 } & \text { 中 } & \text { 高 } & \text { 是 } & \text { 否 } \\ \hline \end{array}$

ID3算法

计算信息熵

7条数据中，3次去打篮球，4此不去打篮球，因此信息熵为：

$H(D)=-\frac{3}{7} \log _{2} \frac{3}{7}-\frac{4}{7} \log _{2} \frac{4}{7}=0.985$
计算每个属性的条件熵

(1) 天气：3次晴天（1次去，2次不去），2次阴天（1次去，1次不去），2次小雨（1次去，1次不去）

$\begin{array}{c} H(D\mid \text {天气})=-\frac{3}{7}\left(\frac{1}{3} \log_{2} \left(\frac{1}{3}\right)+\frac{2}{3} \log_{2} \left(\frac{2}{3}\right)\right)-\frac{2}{7}\left(\frac{1}{2} \log_{2} \left(\frac{1}{2}\right)+\frac{1}{2} \log_{2} \left(\frac{1}{2}\right)\right) -\frac{2}{7}\left(\frac{1}{2} \log_{2} \left(\frac{1}{2}\right)+\frac{1}{2} \log_{2} \left(\frac{1}{2}\right)\right)=0.965\\ \end{array}$

(2) 温度：4次高（2次去，2次不去），2次中（1次去，1次不去），1次低（不去）

$\begin{array}{c} H(D\mid \text {温度})=-\frac{4}{7}\left(\frac{1}{2} \log_{2} \left(\frac{1}{2}\right)+\frac{1}{2} \log_{2} \left(\frac{1}{2}\right)\right)-\frac{2}{7}\left(\frac{1}{2} \log_{2} \left(\frac{1}{2}\right)+\frac{1}{2} \log_{2} \left(\frac{1}{2}\right)\right)-0=0.857 \\ \end{array}$

(3) 湿度：4次高（2次去，2次不去），3次中（1次去，2次不去）

$\begin{array}{c} H(D\mid \text {湿度})=-\frac{4}{7}\left(\frac{1}{2} \log_{2} \left(\frac{1}{2}\right)+\frac{1}{2} \log_{2} \left(\frac{1}{2}\right)\right)-\frac{3}{7}\left(\frac{1}{3} \log_{2} \left(\frac{1}{3}\right)+\frac{2}{3} \log_{2} \left(\frac{2}{3}\right)\right) =0.965\\ \end{array}$

(4) 刮风：3次刮风（1次去，2次不去），4次不刮风（2次去，2次不去）

$\begin{array}{c} H(D\mid \text {刮风})=-\frac{3}{7}\left(\frac{1}{3} \log_{2} \left(\frac{1}{3}\right)+\frac{2}{3} \log_{2} \left(\frac{2}{3}\right)\right)-\frac{4}{7}\left(\frac{1}{2} \log_{2} \left(\frac{1}{2}\right)+\frac{1}{2} \log_{2} \left(\frac{1}{2}\right)\right) =0.965\\ \end{array}$
计算信息增益

$\text { Gain }(\text {D,天气})=H(\text {D})-H(\text {D} \mid \text {天气})=0.985-0.965=0.020$

$\text { Gain }(\text {D,温度})=H(\text {D})-H(\text {D} \mid \text {温度})=0.985-0.857=0.128$

$\text { Gain }(\text {D,湿度})=H(\text {D})-H(\text {D} \mid \text {湿度})=0.985-0.965=0.020$

$\text { Gain }(\text {D,刮风})=H(\text {D})-H(\text {D} \mid \text {刮风})=0.985-0.965=0.020$

我们能看出来温度作为属性的信息增益最大。因为 ID3 就是要将信息增益最大的节点作为父节点，这样可以得到纯度高的决策树，所以我们将温度作为根节点。其决策树状图分裂为下图所示：

在这里插入图片描述

然后我们要将上图中第一个叶节点，也就是温度进一步进行分裂，往下划分，计算其不同属性（天气、湿度、刮风）作为节点的信息增益，可以得到：

$G a i n (温度：高, 湿度) = 1$

$G a i n (温度：高, 天气) = 1$

$G a i n (温度：高, 刮风) = 0.3115$

我们能看到湿度，或者天气在温度为高的节点都可以得到最大的信息增益，这里我们选取湿度作为节点的属性划分。同理，我们可以按照上面的计算步骤得到完整的决策树，结果如下：

在这里插入图片描述

C4.5算法

计算各属性的信息熵

$H(天气)=-\frac{3}{7} \log _{2} \frac{3}{7}-\frac{2}{7} \log _{2} \frac{2}{7}-\frac{2}{7} \log _{2} \frac{2}{7}=1.557$

$H(温度)=-\frac{4}{7} \log _{2} \frac{4}{7}-\frac{2}{7} \log _{2} \frac{2}{7}-\frac{1}{7} \log _{2} \frac{1}{7}=1.379$

$H(湿度)=-\frac{4}{7} \log _{2} \frac{4}{7}-\frac{3}{7} \log _{2} \frac{3}{7}=0.985$

$H(刮风)=-\frac{3}{7} \log _{2} \frac{3}{7}-\frac{4}{7} \log _{2} \frac{4}{7}=0.985$
计算信息增益率

$\text { GainRatio }(D,天气)=\frac{\operatorname{Gain}(D,天气)}{H(天气)}= 0.128$

$\text { GainRatio }(D,温度)=\frac{\operatorname{Gain}(D,温度)}{H(温度)}=0.093$

$\text { GainRatio }(D,湿度)=\frac{\operatorname{Gain}(D,湿度)}{H(湿度)}=0.203$

$\text { GainRatio }(D,刮风)=\frac{\operatorname{Gain}(D,刮风)}{H(刮风)}=0.203$

湿度和刮风的信息增益率最高，这里选择湿度为根节点，之后继续重复上述步骤，方法类似ID3算法，介于步骤繁琐，作者就不一一列举了≡(▔﹏▔)≡。

CART算法

计算基尼系数

$\operatorname{Gini}(\text {D}) = 1-\left(\frac{3}{7}\right)^{2}-\left(\frac{4}{7}\right)^{2} = 0.450$
计算条件基尼系数

下面分别计算自变量天气、温度、湿度和刮风对因变量是否打篮球的条件基尼指数：

(1) 天气

打包处理为：晴天与非晴天(阴天与小雨为一组)，阴天与非阴天(晴天与小雨为一组)，小雨与非小雨(晴天与阴天为一组)

$\begin{aligned} &\operatorname{Gini}(D\mid 晴天)=\frac{3}{7}\left(1-\left(\frac{2}{3}\right)^{2}-\left(\frac{1}{3}\right)^{2}\right)+\frac{4}{7}\left(1-\left(\frac{1}{2}\right)^{2}-\left(\frac{1}{2}\right)^{2}\right)=0.476\end{aligned}$

$\begin{aligned} &\operatorname{Gini}(D\mid 阴天)=\frac{2}{7}\left(1-\left(\frac{1}{2}\right)^{2}-\left(\frac{1}{2}\right)^{2}\right)+\frac{5}{7}\left(1-\left(\frac{2}{5}\right)^{2}-\left(\frac{3}{5}\right)^{2}\right)=0.486\end{aligned}$

$\begin{aligned} &\operatorname{Gini}(D\mid 小雨)=\frac{2}{7}\left(1-\left(\frac{1}{2}\right)^{2}-\left(\frac{1}{2}\right)^{2}\right)+\frac{5}{7}\left(1-\left(\frac{2}{5}\right)^{2}-\left(\frac{3}{5}\right)^{2}\right)=0.486\end{aligned}$

由于最小值为0.476，故将晴天与非晴天作为变量天气的二元划分。

其余变量计算方法类似，温度和湿度需要打包分组，刮风可直接计算。
计算基尼系数下降速度

以天气为例：

$\triangle \operatorname{Gini}(D)=\operatorname{Gini}(D)-\operatorname{Gini}(D\mid 晴天)= 0.450-0.476=-0.026$

再计算其余属性的下降速度，值最大的变量用于根节点的条件判断。接下来的步骤类似上述两种算法，继续迭代，直至结

束。

三、总结

以上是对决策树三种经典算法的原理及步骤的解释，利用python可直接实现ID3算法和CART算法，希望上述文章可以帮助你真

正理解使用决策树方法进行分类时具体的处理方法。

Jzkuan

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据分析算法（一）：决策树

机器学习之决策树提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章 Python 机器学习入门之pandas的使用文章目录机器学习之决策树一、信息熵（entropy）二、使用步骤1.引入库2.读入数据总结一、信息熵（entropy）p(i|t) 代表了节点 t 为分类 i 的概率，其中 log2 为取以 2 为底的对数。这里我们不是来介绍公式的，而是说存在一种度量，它能帮我们反映出来这个信息的不确定度。当不确定性越大时，它所包含的信息量也就越大，信息熵也就越高。
复制链接

扫一扫

专栏目录