决策树_ID3与C4.5与CART

SuperBigFive

已于 2023-06-05 20:55:36 修改

阅读量102

点赞数

分类专栏：机器学习文章标签：决策树机器学习算法

于 2023-06-05 16:19:28 首次发布

本文链接：https://blog.csdn.net/CM_20030210/article/details/131050496

版权

6 篇文章 0 订阅

订阅专栏

决策树顾名思义是一棵树。从决策树根节点向下遍历的过程，即是对待测数据不断检测的过程，最终的结果是走到一个叶子节点。

（非叶子）节点：每个决策节点都有一个样本集合 $D$ ，未划分属性集 $A$ ，以及用于分支的划分属性 $a$ 。
- 根节点的样本集合即为完整的训练集，属性集为所有属性的集合；
- 对于不具有祖孙关系的树上节点，其样本集合的交集为空；对于具有祖孙关系的树上节点，儿子节点的样本集合 $D^{'}$ 一定属于父节点的样本集合 $D$ ；
- 对于每个节点，在生成儿子节点（即分支）时，都要指派同一未划分属性 $\in A$ ，按照属性 $a$ 的 $v$ 个取值将当前节点的样本集合 $D$ 划分成若干个子集 $D^1$ ， $D^2$ … $D^v$ ，分别对应于 $v$ 个儿子节点的样本集合， $D^i$ 中的样本 $x$ 满足 $\in D$ 并且 $x$ 在属性 $a$ 上的取值为 $a$ 的第 $i$ 种取值；
- 由当前节点分支生成的儿子节点的未划分属性集 $A^{'} = A / a$ 。
叶子（节点）：每个叶子节点代表着一种类别，若遍历到当前叶子节点，即代表待测数据属于该叶子节点代表的类别。

见西瓜书“图 $4.2$ 决策树学习基本算法”。

递归返回条件：

三种方法，基本思想都是给定一个数据集纯度的定义，选择一个最优的划分属性，使得划分前后纯度更高。所谓纯度高，就是指分支节点包含的样本尽可能属于同一类别。

定义 $p_k$ 为样本集合 $D$ 中第 $k$ 类样本所占的比例。

信息增益（ $I D 3$ 算法所用)
- 信息熵： $-\sum_{k = 1} {p_klog_2p_k}$ ， $E n t (D)$ 越小，代表 $D$ 的纯度越高；
- 信息增益： $\sum_{v = 1}^V{\frac {|D^v|}{|D|}Ent (D^v)}$ ，信息增益越大，意味着使用属性 $a$ 划分后获得的“纯度提升”越大，所以使用信息增益时，要找到使得信息增益最大的属性来进行最优属性划分；
- 缺点：对可取值数目较多的属性有所偏好。
增益率（ $C 4.5$ 算法所用）
- 增益率被定义为 $Gain\_ratio (D, a) = \frac {Gain (D, a)}{IV (a)}$ ，其中 $-\sum_{v = 1}^{V}{\frac {|D^v|}{|D|}log_2\frac {|D^v|}{|D|}}$ 。同信息增益，增益率越大，获得的“纯度提升”也越大；
- 缺点：对可取值数目较少的属性有所偏好；
- 实践原则：采用启发式做法，现筛选信息增益大于平均值的属性，再从中选择增益率最大的属性作为最优属性划分。
基尼指数（ $C A RT$ 算法所用）
- 基尼值： $\sum_{k = 1}\sum_{k' != k}{p_kp_{k'}} = 1 - \sum_{k = 1}p_k^2$ ， $G ini (D)$ 越小，代表样本集合 $D$ 的纯度越高；
- 样本集合为 $D$ 、属性 $a$ 的基尼指数被定义为： $Gini\_index (D, a) = \sum_{v = 1}^{V}{\frac {|D^v|}{|D|}Gini (D^v)}$ ，选择划分后基尼指数最小的属性作为最优划分属性。

在进行剪枝前要先划分好训练集与验证集，剪枝即是将树上某些非叶子节点改成叶子节点，理想情况下，既能提高一定的正确率，又能避免过拟合问题，同时简化树的结构、减少空间占用以及验证时的搜索时间。

预剪枝指在构建决策树的过程中进行剪枝。
- 对于当前要分支的节点，计算分支后验证集的正确率和把当前节点改成叶子节点后（类别为当前节点的样本集合中数量最多的类别）验证集的正确率，如果改成叶子节点后正确率更高了，那么就进行剪枝，直接把当前节点改为叶子节点，不再进行分支；
- 可以看出，预剪枝是一种贪心策略。有些分支的当前划分虽不能提升决策树的泛化性能，但在其基础上进行的后续划分却可能导致性能显著提高。预剪枝可能把这种情况给剪掉，增加了决策树欠拟合的风险。
后剪枝是在决策树构建完成后从底向上进行的剪枝。
- 与预剪枝的剪枝策略基本一致；
- 相对于预剪枝，没有增加决策树欠拟合的风险，但增大了建树的开销，需要把决策树完整地构建出来（其实个人觉得这点开销算个锤子）。

在先前的讨论中，由当前节点分支生成新的儿子节点时，是基于划分属性 $a$ 的 $v$ 种取值的；如果属性 $a$ 的取值是连续值，则不能按照先前的方法分支，此时我们采用二分法（ $C 4.5$ 算法采用的机制）。

对于划分属性 $a$ ，指定一个分界值 $t$ ，将样本集合 $D$ 划分成两类 $D_1$ 和 $D_2$ ，其中 $D_1$ 中样本 $x$ 满足 $\in D$ 并且 $x$ 在属性 $a$ 上的取值小于等于 $t$ ；自然的， $D_2$ 中的样本满足大于 $t$ 。
显然，此时的决策树变成了一棵二叉树；
对于分界值 $t$ 的选择，首先定义数列 $a_i$ 表示样本集合 $D$ 中所有样本在属性 $a$ 上的取值，且满足递增。显然，对于两个相邻的值 $a_i$ 与 $a_{i + 1}$ ， $t$ 满足 $a_i \leq t < a_{i + 1}$ 时对样本集合的划分结果时一样的。不妨令 $\frac {a_i + a_{i + 1}}{2}$ ，那么对于属性 $a$ ，所有可选的 $t$ 的值用集合 $T_a$ 来表示就是 $T_a = \{\frac {a_i + a_{i + 1}}{2}|1 \leq i \leq n - 1\}$ ，其中 $n$ 是数列 $a_i$ 的长度。
最优划分属性的选取原则修改为（以信息增益为例）：
$\underset{t \in T_a}{max} \quad Gain(D, a, t) = \underset{t \in T_a}{max} \quad Ent (D) - \sum_{\lambda\in \{-, +\}}\frac {|D_t^\lambda|}{|D|}Ent (D^\lambda_t)$
类别变成了两种，遍历每种 $t$ 的取值，找令 $G ain (D, a)$ 最大的 $t$ ；若后期选用了该属性进行划分，则对应的 $t$ 就是这里求得的令 $G ain (D, a)$ 最大的 $t$ 。
与离散属性不同，若当前节点划分属性为连续属性，该属性还可作为其后代节点的划分属性。