10、决策树算法

healed萌

已于 2023-11-24 17:47:02 修改

阅读量831

点赞数 15

分类专栏：机器学习文章标签：算法决策树机器学习

于 2023-11-23 17:47:49 首次发布

本文链接：https://blog.csdn.net/m0_56642803/article/details/134582894

版权

1 介绍与定义

输入：训练数据 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ，其中 $x_i=(x_i^{(1)},x_i^{(2)},...,x_i^{(n)})$ ， $n$ 是属性个数， $y_i\in \{1,2,...,K\}$ ；。
输出：构建决策树模型，正确对实例 $x$ 进行分类。

决策树基于树的结构进行决策，决策树的起始点为根节点，中间决策流程为“内部节点”，分类结果为“叶节点”。

“内部结点”：有根结点和中间结点，在某个属性上进行决策；
分支：该测试的可能结果，属性有多少个取值，就有多少个分支；
“叶节点”：分类结果。

决策树的基本流程

在这里插入图片描述

首先从开始位置，将所有数据划分到一个节点，即根节点。
然后经历橙色的两个步骤，橙色的表示判断条件：
- 若数据为空集，跳出循环。如果该节点是根节点，返回null；如果该节点是中间节点，将该节点标记为训练数据中类别最多的类；
- 若样本都属于同一类，跳出循环，节点标记为该类别；
如果经过橙色标记的判断条件都没有跳出循环，则对该节点选择当前条件下的最优属性进行划分。
经历上步骤划分后，生成新的节点，然后循环判断条件，不断生成新的分支节点，直到所有节点都跳出循环。
结束，生成一棵决策树。

2 特征选择

特征选择——选择当前条件下的最优属性

2.1 信息增益

在信息论与概率统计中，熵（entropy) 是表示随机变量不确定性的度量。设 $X$ 是一个取有限个值的离散随机变量，其概率分布为
$P(X=x_i)=p_i,i=1,2,...,n$
则随机变量 $X$ 的熵定义为
$H(X)=-\sum_{i=1}^np_i\log p_i$
由定义可知，熵只依赖于 $X$ 的分布，而与 $X$ 的取值无关，所以也可将 $X$ 的熵记作 $H (p)$ ，即
$H(p)=-\sum_{i=1}^np_i\log p_i$
熵越大，随机变量的不确定性就越大。从定义可验证 $\leq H(p) \leq \log n$ 。

下图是一个只有2个取值的随机变量，假如取值只有 $0$ 和 $1$ ，则 $P (X = 0) = p, P (X = 1) = 1 - p$ 。信息熵为 $H(p)=-p\log p-(1-p)\log (1-p)$ ，我们画一个 $p$ 在0-1的变过过程， $H (p)$ 随着变化的曲线：

在这里插入图片描述

由上图可以看出，当 $p = 0.5$ 的时候， $H (p)$ 达到最大值。因为 $p = 0$ 或 $p = 1$ 的时候， $X$ 只有一种可能性，也就是 $X$ 是确定的，因此熵最小，而随着 $p$ 接近 $0.5$ 的过程中，变量 $X$ 的不确定性就越来越大，我们计算出来的熵也是越来越大，与实际相符。

信息增益：特征 $A$ 对训练数据集 $D$ 的信息增益 $g (D, A)$ ，定义为集合 $D$ 的经验熵 $H (D)$ 与给定条件特征 $A$ 下 $D$ 的经验条件熵 $H (D ∣ A)$ 之差，即
$g (D, A) = H (D) - H (D ∣ A)$
一般地，熵 $H (Y)$ 与条件熵 $H (Y ∣ X)$ 之差称为互信息 (mutual information) 。决策树学习中的信息增益等价于训练数据集中类与特征的互信息。

根据信息增益准则的特征选择方法是：对训练数据集(或子集) $D$ ，计算其每个特征的信息增益，井比较它们的大小，选择信息增益最大的特征。

设训练数据为 $D$ ， $∣ D ∣$ 表示其样本容量，即样本个数。设有 $K$ 个类 $C_k$ ， $k = 1, 2, ..., K$ , $C_k|$ 为属于类 $C_k$ 的样本个数， $\sum_{k=1}^K |C_k| = |D|$ 。设特征 $A$ 有 $m$ 个不同的取值 ${a_1,a_2,…,a_m\}$ ，根据特征 $A$ 的取值将 $D$ 划分为 $m$ 个子集 $D_1,D_2,…, D_m$ ， $D_i|$ 为 $D_i$ 的样本个数， $\sum_{i=1}^m |D_i| = |D|$