决策树及其剪枝方法学习笔记

最新推荐文章于 2024-07-25 23:00:07 发布

赏花赏月赏秋香

最新推荐文章于 2024-07-25 23:00:07 发布

阅读量157

点赞数 1

分类专栏：决策树文章标签：决策树剪枝信息熵算法机器学习

本文链接：https://blog.csdn.net/qq_42308441/article/details/109905103

版权

决策树专栏收录该内容

3 篇文章 0 订阅

订阅专栏

决策树

信息量：

$_{2} \frac{1}{p\left(x_{i}\right)}$

信息熵(不确定性度量)，熵为各事件信息量的“数学期望”：

熵越大，随机变量的不确定性越大。

$H(p)=-\sum_{i=1}^{n} p_{i} \log p_{i}$ ，其中 $\leq H(p) \leq \log n$

条件熵：表示已知随机变量X的条件下随机变量Y的不确定性。

$\mid X)=\sum_{i=1}^{n} p_{i} H\left(Y \mid X=x_{i}\right)$

信息增益（ID3）：特征A对训练数据集D的信息增益， $g (D, A)$ ，定义为集合D的经验熵 $H (D)$ 与特征A给定条件下D的经验条件熵 $H (D ∣ A)$ 之差，即：

$\mid A)$

$\mid A)=\sum_{k=1}^{K} \frac{\left|D_{i}\right|}{|D|} H\left(D_{i}\right)=-\sum_{i=1}^{n} \frac{\left|D_{i}\right|}{|D|} \sum_{k=1}^{K} \frac{\left|D_{i k}\right|}{\left|D_{i}\right|} \log _{2} \frac{\left|D_{i k}\right|}{\left|D_{i}\right|}$

计算每一个属性的信息增益，选择信息增益最大的属性。

以信息增益作为划分训练数据即的特征，存在偏向于选择取值较多的特征的问题（属性值越多信息增益会越大），使用信息增益比可以对这一问题进行矫正。

信息增益比（C4.5）：特征A对训练数据集D的信息增益比定义为信息增益与训练数据集D关于特征A的值的熵之比：

$g_{R}(D, A)=\frac{g(D, A)}{H_{A}(D)}$ ， $H_{A}(D)=-\sum_{i=1}^{n} \frac{\left|D_{i}\right|}{|D|} \log _{2} \frac{\left|D_{i}\right|}{|D|}$

决策树面临的问题及剪枝：

理想的决策树：

叶子结点数最少
叶子结点深度最小
叶子结点数最少且叶子结点深度最小

决策树的剪枝：通过极小化决策树整体的损失函数或代价函数来实现。

设树 $T$ 的叶结点个数为 $∣ T ∣$ ， $t$ 是树 $T$ 的叶结点，该叶结点有 $N_{t}$ 个样本点，其中 $k$ 类的样本点有 $N_{tk}$ 个， $k = 1, 2 . . K$ ， $H_{t}(T)$ 为叶结点 $t$ 上的经验熵， $\alpha>=0$ 为参数，损失函数为：

$C_{\alpha}(T)=\sum_{t=1}^{|T|} N_{t} H_{t}(T)+\alpha|T|$ ，其中 $\sum_{t=1}^{|T|} N_{t} H_{t}(T)$ 为预测误差损失（拟合性）， $\alpha|T|$ 为模型复杂度损失（泛化性），因为我们知道信息熵是一个数学期望，所以要进行加权 $N_{t}$ 。

$H_{t}(T)=-\sum_{k} \frac{N_{t k}}{N_{t}} \log \frac{N_{t k}}{N_{t}}$ ，则： $C(T)=\sum_{t=1}^{|T|} N_{t} H_{t}(T)=-\sum_{t=1}^{|T|} \sum_{k=1}^{K} N_{t k} \log \frac{N_{t k}}{N_{t}}$ ， $C_{\alpha}(T)=C(T)+\alpha|T|$

对固定的 $a$ 一定存在损失函数最小子树，表示为 $T_{a}$ ，当 $a$ 变大时，最优子树 $T_{a}$ 偏小， $a = 0$ 时，整体树最优， $a$ 趋于无穷大，单结点最优。

树剪枝算法：

输入：生成算法产生的整个树 $T$ ，参数 $\alpha$ ;

输出：修剪后的子树 $T_{\alpha}$ 。

1）计算每个结点的经验熵；
2）递归地从树的叶结点向上回缩。
- 设一组叶结点回缩到其父结点之后与之前的损失函数分别为： $C_{\alpha}(T_{A})$ 与 $C_{\alpha}(T_{B})$
- 如果： $C_{\alpha}\left(T_{A}\right) \leq C_{\alpha}\left(T_{B}\right)$ 则进行剪枝
3）返回2），直至不能继续为止，得到损失函数最小的子树 $T_{\alpha}$ 。

赏花赏月赏秋香

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
决策树及其剪枝方法学习笔记

决策树信息量：log21p(xi)log _{2} \frac{1}{p\left(x_{i}\right)}log2p(xi)1信息熵(不确定性度量)，熵为各事件信息量的“数学期望”：熵越大，随机变量的不确定性越大。H(p)=−∑i=1npilog⁡piH(p)=-\sum_{i=1}^{n} p_{i} \log p_{i}H(p)=−i=1∑npilogpi，其中 0≤H(p)≤log⁡n0 \leq H(p) \leq \log n0≤H(p)≤logn条件熵：表示已知
复制链接

扫一扫