机器学习（三）——决策树

最新推荐文章于 2024-10-01 18:22:49 发布

冠long馨

最新推荐文章于 2024-10-01 18:22:49 发布

阅读量2.6k

点赞数

分类专栏：机器学习与大数据分析文章标签：机器学习 Python 深度学习

本文链接：https://blog.csdn.net/koulongxin123/article/details/123559741

版权

本文介绍了决策树的基本流程，包括递归生成过程和三种递归返回情况。在划分选择部分，详细讲解了信息熵、信息增益、信息增益率和基尼指数的概念及计算，探讨它们在选择最优划分属性时的作用和偏好。剪枝策略中，分析了预剪枝和后剪枝的区别和适用场景，以及它们在防止过拟合和欠拟合中的平衡。最后讨论了连续值处理和缺失值处理的方法。

摘要由CSDN通过智能技术生成

1. 基本流程

（1）定义
一般的，一棵决策树包含一个根节点、若干内部节点和叶节点。

叶节点：对应决策结果。
根节点和中间节点：根据属性测试的结果将所属样本划分到其子节点中。

（2）决策树基本算法
决策树的生成是一个递归过程。

在每次递归中，首先判断是否达到递归返回条件，获得叶节点。
选择最优化分节点。
根据节点的属性测试结果将包含的样本划分到子节点。
以子节点为子树根节点，剔除当前最优划分属性，调用决策树生成函数。

在这里插入图片描述
（3）三种递归返回情况

当前D中所有样本都属于同一类别C时：
将Node标记为类型为C的叶节点。
当前属性集A为空：
多数投票，将Node标记为当前样本集合D中数量最多类别的叶节点。
当前样本集D为空
将Node标记为其父节点样本中数量最多的类的叶节点。

2. 划分选择

我们希望随着划分的不断进行，决策树的分支节点的纯度越来越高，分支节点所包含的样本尽可能属于同一类别。

属性	缺点	方法	内容
信息增益	对可取值数目较多的属性有所偏好	ID3	选择信息增益最大的属性
信息增益率	对可取值数目较多的属性有所偏好	C4.5	从候选划分属性找出信息增益高于平均水平的属性，再从中选取增益率最高
基尼指数		CART	选择划分后基尼指数最小的属性

2.1 信息增益（information gain）

（1）信息熵
信息熵（information entropy）是度量样本纯度最常用的一种指标。
$Ent(D)=-\sum_{k=1}^{|\gamma|} p_k \log_2 p_k$

度量： $E n t (D)$ 值越小，惊异值越小，纯度越高。

假设当 $p_k=0$ 时， $p_k \log_2 p_k =0$ 。
当 $p_k=1$ 时， $E n t (D)$ 值最小为0。当 $p_k=\frac{1}{|\gamma|}$ 时，即样本按类别1：1分布时， $E n t (D)$ 值最大为1.

理解： 信息熵用于度量某一样本集D的纯度。只要给定样本集就可以计算其对应的信息熵。

（2）信息增益（information entropy）
假设离散属性 $\alpha$ 有 $V$ 个可能的取值为 $\{a_1,a_2,\cdots,a_V\}$ ，用 $\alpha$ 来进行划分，会产生 $V$ 个分支节点。其中第v各分支节点包含了D中所有在属性 $\alpha$ 上取值为 $a_v$ 的样本，记为 $D^v$ 。
可以计算出用属性 $\alpha$ 对样本D进行划分所得到的信息增益：
$Gain(D,\alpha)=Ent(D)-\sum_{i=1}^V \frac{|D^i|}{|D|}Ent(D^i)$