【机器学习】简析决策树

最新推荐文章于 2024-09-17 02:13:06 发布

Lewiz_124

最新推荐文章于 2024-09-17 02:13:06 发布

阅读量1k

点赞数 13

分类专栏：机器学习文章标签：机器学习决策树人工智能

本文链接：https://blog.csdn.net/Lewiz_124/article/details/141269159

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

决策树的直观理解

决策树是一种常用的机器学习算法，用于分类和回归任务。为了让你理解决策树的原理，我将用一个形象的类比来解释。

想象一下，你在参加一个问答游戏，目的是猜出某个人正在想的一种水果。这个人会依次回答你提出的各种问题，直到你猜到正确的水果。

比如，你可能会问：

这个水果的颜色是红色的吗？
它的大小比拳头大吗？
它的味道是甜的吗？

每个问题的答案都会把你引导到下一个问题，直到你缩小了可能的水果范围，最终得到了正确的答案。这个问答的过程就像在一棵树上移动，每个问题就是一棵树上的一个分叉点（节点），根据回答选择不同的分支，最终到达叶子节点（叶子节点就是最终的猜测结果）。

下面是一个假设回答上述问题的决策树示意：

决策树的基本思想

决策树的核心思想是通过递归地选择最优的特征来分割数据，以最大化每一步的“纯度”（即使得每个节点内的数据尽可能同质化）。常用的纯度衡量指标包括信息增益（Information Gain）、基尼指数（Gini Index）等。

决策树的数学定义

1. 数据集

我们假设有一个数据集 $D = \{(x_i, y_i)\}_{i=1}^n$ ，其中：

$x_i \in \mathbb{R}^d$ 是第 $i$ 个样本的特征向量， $d$ 是特征的维数。
$y_i$ 是与 $x_i$ 对应的标签，对于分类问题 $y_i \in \{1, 2, \dots, C\}$ ，而对于回归问题 $y_i \in \mathbb{R}$ 。

2. 树的结构

决策树是一个递归的二叉树结构，每个节点 $t$ 都与数据集的一个子集 $D_t \subseteq D$ 相关联。树包含以下几种节点：

根节点（Root Node）：树的最顶层节点，包含整个数据集 $D$ 。
内部节点（Internal Node）：每个内部节点通过对一个特征的条件测试（如 $x_j \leq \theta$ ）将数据集 $D_t$ 分为两个子集 $D_{t_L}$ 和 $D_{t_R}$ ，其中 $t_L$ 和 $t_R$ 是该节点的两个子节点。
叶子节点（Leaf Node）：不再继续分裂的节点，叶子节点与最终的预测输出 $\hat{y}$ 相关联。

3. 总结

一个决策树模型可以表示为一个函数 $\mathbb{R}^d \rightarrow \mathbb{R}$ 或 $\mathbb{R}^d \rightarrow \{1, 2, \dots, C\}$ （分类问题），其中：

$\sum_{t \in \text{Leaves}} \mathbb{I}(x \in R_t) v_t$
$R_t$ 是叶子节点 $t$ 对应的区域， $v_t$ 是叶子节点 $t$ 的输出值（分类时是类别，回归时是均值）。

决策树的构建过程

决策树的构建是一个递归过程：

初始条件：从根节点开始，节点对应的数据集为 $D$ 。
决策树从根节点开始，这是树的顶端。在问答游戏中，根节点是你问的第一个问题。这个问题需要最大限度地将数据集分成不同的部分。在技术上，这意味着选择一个属性（或特征），该属性能将数据最有效地分开。

类比：如果你想最快缩小范围，你可能会首先问一个能大幅度排除选项的问题，比如“这个水果是黄色的吗？”。这就像是根节点的问题。
选择分裂：对于当前节点 $t$ 上的数据集 $D_t$ ，选择特征 $j$ 和阈值 $\theta$ 使得分裂准则 $\Delta \phi(D_t, j, \theta)$ 最大化。
每当你在游戏中得到答案，你就把数据分成了两个或多个部分（比如红色的水果和非红色的水果）。在决策树中，这个过程叫做分裂。分裂的标准通常是根据某种度量方式，比如信息增益或基尼系数，来决定的。这个度量衡量了每次分裂后数据的纯度或不确定性减少的程度。

类比：你问的问题应该尽量减少不确定性，比如通过问颜色问题，你一下子就把一半的水果排除了。
数据划分：根据选定的 $j$ 和 $\theta$ ，将数据集 $D_t$ 分为两个子集 $D_{t_L}$ 和 $D_{t_R}$ 。
递归构建：对两个子集 $D_{t_L}$ 和 $D_{t_R}$ 递归地重复上述过程，直到满足停止条件，如数据集不能再分或达到最大深度。
这个过程会递归进行。对于每个子节点，算法会重复选择最好的分裂属性，并进一步分裂，直到数据集不能再分裂（所有数据都属于同一类）或达到某个预设的条件（比如树的深度达到一定程度）。

类比：你继续问“这个水果的大小比拳头大吗？”等问题，逐渐缩小范围，直到确定是某种特定的水果。
叶子节点输出：在叶子节点 $t$ ，返回分类问题中最常见的类别或回归问题中目标值的均值。
当数据不能再进一步分裂时，树的末端就是叶子节点。每个叶子节点代表一个决策或分类结果。比如在问答游戏中，这就是你最终猜测出的水果。

类比：你得到了“苹果”或“香蕉”的答案。
剪枝：有时候，决策树可能会过度拟合数据，导致其在新数据上表现不佳。为了防止这种情况发生，可以对决策树进行剪枝，这意味着去掉一些不必要的分支，使模型更简单和泛化能力更强。

类比：有时候你可能会意识到你问了一些不太相关的问题，决定忽略这些问题，以避免混淆。

决策树中的分裂原理

1.信息增益（Information Gain）

通俗来说，信息增益用来决定在哪个属性上进行分裂。信息增益计算的是在当前分裂下，不确定性（熵）的减少量。熵越小，数据越纯，信息增益越大。

类比：当你问了一个很有用的问题，比如“这个水果的颜色是红色的吗？”，你会发现你剩下的选项大大减少了，这就是高信息增益的效果。

定义为：
$\text{E}(S) = - \sum_{i=1}^{c} p_i \log_2(p_i)$
其中， $p_i$ 是集合中第 $i$ 类样本的比例， $c$ 是类别数目。熵越大，表示样本的纯度越低，系统的不确定性越高。

信息增益则定义为在某特征 $A$ 上进行划分后，数据集纯度提升的度量：
$\text{IG}(S, A) = \text{E}(S) - \sum_{v \in \text{Values}(A)} \frac{|S_v|}{|S|} \text{E}(S_v)$
其中， $S_v$ 是按照特征 $A$ 的某个取值 $v$ 分割后的子集。信息增益越大，说明这个特征越能提升数据集的纯度，因此会优先选择信息增益最大的特征来进行分割。