机器学习——决策树

bulingg

已于 2024-04-19 17:58:43 修改

阅读量40

点赞数

分类专栏：机器学习文章标签：机器学习决策树人工智能

于 2023-08-07 13:41:40 首次发布

本文链接：https://blog.csdn.net/bulling/article/details/130545141

版权

机器学习专栏收录该内容

22 篇文章 0 订阅

订阅专栏

决策树

一，决策树
二、过拟合的处理方法
三、连续属性处理
四、属性缺失值处理

一，决策树

决策树是一种基于树形结构的分类算法，包括一个根节点，若干个叶子结点和内部节点。其中

根节点包含所有的数据集
内部节点对应当前节点数据集，以及使节点划分后纯度提升最大的划分属性
叶子节点：最终的分类结果

决策树的生成过程：
首先从根节点开始，将所有数据放在根节点，选择一个最优特征，按照该特征将训练数据集分割成子集，使得该子集有一个在当前条件下最好的分类。如果该子集已经能够被基本正确分类，那么构造叶节点，将子集分到所对应的叶节点中；如果还有子集不能被正确分类，那么重复以上步骤，直至所有数据被基本正确分类或者没有可以选择的特征为止。

1. 节点划分属性选择依据

熵（entropy）表示随机变量不确定性度量。设 $X$ 是一个取有限个值得离散随机变量，其概率分布为
$P(X=x_{i})=p_{i},i=1,2,\cdots,n$
则随机变量的熵 $H (p)$ 为
$H(p)=-\sum_{i=1}^{n}p_{i}logp_{i}$
熵越大，表明不确定性也就越大，当随机变量服从均匀分布是，熵最大 $H (p) = l o g n$
条件熵：随机变量 $X$ 给定的条件下，随机变量 $Y$ 的条件熵 $H (Y ∣ X)$ ：
$H(Y|X)=\sum_{i=1}^{n}p_{i}H(Y|X=x_{i})$

在划分时期望能够使当前节点的不纯度下降最大，度量节点不纯度的依据有

设训练数据集为 $D$ , $∣ D ∣$ 表示其样本容量，即样本个数。设有 $K$ 个类 $C_{k},k=1,2,\cdots, K$ ， $C_{k}|$ 表示类 $C_{k}$ 的样本个数。设特征 $A$ 有 $n$ 个不同的取值 $\{a_{1},a_{2},\cdots,a_{n}\}$ ，根据特征 $A$ 的取值将数据 $D$ 划分为 $n$ 个子集 $D_{1},D_{2},\cdots,D_{n}$ ， $D_{i}|$ 为 $D_{i}$ 的样本个数， $\sum_{i=1}^{n}|D_{i}|=|D|$ 。记子集 $D_{i}$ 中属于类 $C_{k}$ 的样本集合为 $D_{ik}$ 。即 $D_{ik}=D_{i}\cap C_{k}$ ， $D_{ik}|$ 为 $D_{ik}$ 的样本个数。

1.1 信息增益

输入：训练数据集 $D$ 和特征 $A$
输出：特征 $A$ 对训练数据集 $D$ 的信息增益 $g (D, A)$
（1）计算数据集 $D$ 的信息熵 $H (D)$
$H(D)=-\sum_{i=1}^{K}\frac{|C_{k}|}{|D|}log_{2}\frac{|C_{k}|}{|D|}$
（2）计算特征 $A$ 对训练集 $D$ 的经验条件熵 $H (D ∣ A)$
$H(D|A)=\sum_{k=1}^{n}\frac{|D_{i}|}{|D|}H(D_{i})=-\sum_{k=1}^{n}\frac{|D_{i}|}{|D|}(\sum_{i=1}^{K}\frac{|D_{ik}|}{|D_{i}|}log_{2}\frac{|D_{ik}|}{|D_{i}|})$
（3）计算信息增益
$g (D, A) = H (D) - H (D ∣ A)$
信息增益偏向于取具有取值较多的特征，因此考虑信息增益率

1.2 信息增益率

基于特征 $A$ 的值的熵 $H_{A}(D)$ 为：
$H_{A}(D)=-\sum_{i=1}^{n}\frac{|D_{i}|}{|D|}log_{2}\frac{|D_{i}|}{|D|}$
因此特征 $A$ 对训练数据集的信息增益比 $g_{R}(D,A)$ 为：
$g_{R}(D,A)=\frac{g(D,A)}{H_{A}(D)}$

1.3 Gini指数

对于给定样本集合 $D$
$Gini(D)=1-\sum_{i=1}^{K}(\frac{|C_{i}|}{|D|})^{2}$

2.1 ID3算法

核心：在决策树各个节点上应用信息增益准则选择特征，递归地构建决策树
具体方法：从根节点开始，对结点计算所有可能的特征的信息增益，选择信息增益最大的特征作为节点的特征，由该特征的不同取值建立子节点；再对子节点递归调用以上方法，构建决策树；直到所有特征的信息增益均很小或者没有特征可以选择为止，最后得到一颗决策树。

输入：训练数据集 $D$ ，特征集 $A$ 阈值 $\varepsilon$
输出：决策树 $T$
（1）若 $D$ 中所有实例属于同一类 $C_{k}$ ，则 $T$ 为单节点数
（2）若 $A=\varnothing$ ，则 $T$ 为单节点树，并将 $D$ 中实例数最大的类 $C_{k}$ 作为该节点的类标记，返回 $T$
（3）否则，计算 $A$ 中各特征对 $D$ 的信息增益，选择信息增益最大的特征 $A_{g}$
（4）如果 $A_{g}$ 的信息增益小于阈值 $\varepsilon$ ，则置 $T$ 为单节点树，并将 $D$ 中实例数最大的类 $C_{k}$ 作为该节点的类标记，返回 $T$
（5）否则，对 $A_{g}$ 的每一可能值 $a_{i}$ ，依 $A_{g}=a_{i}$ 将 $D$ 分割成若干非空子集 $D_{i}$ ，将 $D_{i}$ 中是隶属最大的类作为类标记，构建子结点，由结点及其子结点构成树 $T$ ，返回 $T$
（6）对第 $i$ 个子结点，以 $D_{i}$ 为训练集，以 $A-\{A_{g}\}$ 为特征集，递归地调用步骤（1）-（5），得到子树 $T_{i}$ ，返回 $T_{i}$

2.2 C4.5算法

如上所示，选择信息增益比最大的特征进行分割

2.3 CART算法

递归构建二叉决策树的过程
选择基尼指数最小的特征进行分割

二、过拟合的处理方法

决策树的剪枝通过极小化决策树整体的损失函数或代价函数。设树的叶结点个数为 $∣ T ∣$ ， $t$ 是树 $T$ 的叶结点，该叶结点有 $N_{t}$ 个样本，其中 $k$ 类的样本有 $N_{tk}$ 个， $k=1,2,\cdots, K$ ， $H_{t}(T)$ 为叶结点 $t$ 的经验熵， $\alpha \ge 0$ 为参数，则决策树学习的损失函数可以定义为：
$C_{\alpha}(T)=\sum_{t=1}^{|T|}N_{t}H_{t}(T)+\alpha |T|=C(T)+\alpha |T|$
其中，
$H_{t}(T)=-\sum_{k}\frac{N_{tk}}{N_{t}}log_{2}\frac{N_{tk}}{N_{t}}\\ C(T)=\sum_{t=1}^{|T|}N_{t}H_{t}(T)=-\sum_{t=1}^{|T|}N_{t}\sum_{k}^{K}\frac{N_{tk}}{N_{t}}log\frac{N_{tk}}{N_{t}}=-\sum_{t=1}^{|T|}\sum_{k}^{K}N_{tk}log\frac{N_{tk}}{N_{t}}$
$C_{\alpha}(T)$ 表示模型对训练数据的预测误差，即模型与训练数据的拟合程度， $∣ T ∣$ 表示模型复杂度，参数 $\alpha$ 控制两者的影响

预剪枝
后剪枝
树的后剪枝算法：
（1）计算每个结点的经验熵
（2）递归从树的叶结点向上回缩
计算结点回缩前的树 $T_{B}$ 和回缩后的树 $T_{A}$ ，分别计算其损失函数 $C_{\alpha}(T_{B}),C_{\alpha}(T_{A})$ ，如果 $C_{\alpha}(T_{B})\le C_{\alpha}(T_{A})$
则进行剪枝，将父节点变为新的叶结点
（3)返回步骤（2），直至不能继续为止，得到损失函数最小的子树 $T_{\alpha}$

三、连续属性处理

将连续属性在数据集中的取值分别取出为 $a_{1},a_{2},\cdots,a_{n}$ ，然后取属性值分别为取值的中点值，即 $t_{i}=\frac{a_{i}+a_{i+1}}{2}$ ，将 $a\le t_{i}$ 归为同一取值， $a> t_{i}$ 归为另一取值，然后分别计算结点依据 $t_{i}$ 划分后的子结点的不纯度，选择结点不纯度下降最大的 $t_{i}$ 值作为当前结点的划分属性