【机器学习】决策树

清列

已于 2023-11-06 21:56:48 修改

阅读量118

点赞数

文章标签：机器学习决策树人工智能

于 2023-11-06 21:55:40 首次发布

本文链接：https://blog.csdn.net/qq_66115149/article/details/134255343

版权

决策树是一种常用于机器学习和数据挖掘领域的监督学习算法，用于分类和回归任务。

一.背景：

决策树算法源自决策分析领域，最早用于管理和决策支持系统。随着计算机科学和机器学习的发展，决策树被引入到数据分析和预测任务中。它们是一种强大的工具，用于从数据中自动学习规则和决策过程。

二.原理：

决策树的原理基于树状结构，其目标是根据输入数据自动构建一个树，用于分类或回归任务。下面是决策树的原理：

1. 树的构建：
- 初始状态下，整个数据集视为根节点，代表初始的决策。
- 选择一个特征作为分裂条件，以将数据集分成更小的子集。这个选择通常是根据某个分裂准则（例如信息增益、基尼不纯度、均方误差等）来确定的，以最大化分类或回归的性能。
- 在所选特征的基础上，创建子节点，并为每个子节点重复这个过程，直到满足停止条件。停止条件可以是树的深度达到预定值、节点包含的样本数小于某一阈值，或者达到其他预定条件。

2. 树的分支：
- 决策树的每个节点都包含一个决策规则，用于决定将数据分配到哪个子节点。这些规则通常基于特征的阈值，例如"如果特征A的值大于X，则转到左子节点；否则，转到右子节点"。
- 分裂条件和决策规则的选择是通过最小化误差或不纯度来实现的。在分类问题中，常见的不纯度度量包括基尼不纯度和信息增益。在回归问题中，通常使用均方误差。

3. 叶节点：
- 当树的分裂过程结束后，每个叶节点包含一个最终的分类标签（在分类问题中）或回归数值（在回归问题中）。

4. 剪枝：
- 为了避免过拟合，决策树通常需要进行剪枝操作。剪枝是指删除一些节点和相关的规则，以减小树的复杂度。这有助于提高模型的泛化能力，使其在新数据上表现更好。

5. 特征选择：
- 决策树的性能取决于特征的选择。通常使用不同的方法来评估特征的重要性，并选择最相关的特征用于分裂。常见的方法包括信息增益、基尼重要性和均方误差减少。

6. 预测：
- 当决策树构建完成后，可以使用它来进行分类或回归预测。从根节点开始，根据每个节点的决策规则逐步遍历树，直到达到叶节点，然后返回叶节点的输出值作为预测结果。

三.决策树属性划分：

1. 信息增益 (Information Gain) - 用于分类问题：
- 信息增益度量了选择某个属性（特征）后，数据不确定性的减少。具体公式如下：
IG(D, A) = H(D) - H(D|A)
其中，IG(D, A)表示信息增益，H(D) 表示数据集 D的信息熵，H(D|A) 表示在属性 A条件下的条件熵。信息熵和条件熵的公式分别为：
H(D) = -\sum_{i=1}^c p_i \log_2(p_i)
H(D|A) = \sum_{i=1}^n \frac{|D_i|}{|D|} H(D_i)
其中，c表示类别的数量，p_i表示每个类别的比例，n表示属性 A的取值数量，|D_i|表示属性 A的每个取值对应的子数据集的大小。

2. 基尼不纯度 (Gini Impurity) - 用于分类问题：
- 基尼不纯度度量了选择某个属性后，数据混乱程度的减少。具体公式如下：
Gini(D) = 1 - \sum_{i=1}^c p_i^2
Gini(D|A) = \sum_{i=1}^n \frac{|D_i|}{|D|} Gini(D_i)
其中，Gini(D) 表示数据集 D 的基尼不纯度，Gini(D|A)表示在属性 A条件下的条件基尼不纯度。其他符号的含义与信息增益类似。

3. 均方误差减少 - 用于回归问题：
- 在回归问题中，均方误差减少度量了选择某个属性后，数据点方差的减少。具体公式如下：
MSE(D) = \frac{1}{|D|} \sum_{i=1}^{|D|} (y_i - \bar{y})^2
MSE(D|A) = \sum_{i=1}^n \frac{|D_i|}{|D|} MSE(D_i)
其中，MSE(D)表示数据集 D的均方误差，MSE(D|A)表示在属性 A条件下的条件均方误差。y_i表示目标变量的值，\bar{y}表示目标变量的均值。

根据这些公式，决策树算法会计算每个属性的信息增益、基尼不纯度减小或均方误差减少，并选择最大化这些度量的属性作为分裂属性。这个选择过程在每个节点上递归执行，直到满足停止条件（如树的深度达到预定值或数据子集的大小小于阈值）为止，从而构建整个决策树。

四.剪枝处理：

决策树剪枝是一种技术，用于减小树的复杂度，降低过拟合的风险，并提高模型的泛化能力。剪枝过程涉及删除一些节点（通常是叶节点）和相关的规则，以减小树的规模，同时保持模型的性能。

1. 预剪枝（Pre-pruning）：
- 预剪枝是在树的构建过程中，在节点分裂前进行的剪枝操作。在每个节点划分前，可以应用一些条件来判断是否进行分裂，以避免过度生长的树。
- 常见的预剪枝条件包括限制树的最大深度、限制每个叶节点的最小样本数、限制每个叶节点的最小不纯度等。
- 预剪枝可以减小树的复杂度，但可能会导致模型欠拟合，因此需要根据数据性质谨慎选择剪枝条件。

2. 后剪枝（Post-pruning）：
- 后剪枝是在树的构建后进行的剪枝操作，通过删除部分叶节点来提高模型的泛化能力。后剪枝过程通常包括以下步骤：
a. 从底向上遍历树的每个叶节点，将其替换为一个单独的预测值，通常是该叶节点中样本数最多的类别（在分类问题中）或平均值（在回归问题中）。
b. 评估在验证数据集上的性能，例如计算分类准确率或均方误差。
c. 如果剪枝后的性能在验证数据上没有显著下降，那么保留剪枝后的树；否则，回滚到未剪枝状态。

3. 剪枝条件：
- 剪枝条件通常基于性能评估来确定。一种常见的方法是使用验证数据集，计算剪枝前后模型的性能，如果剪枝后的性能没有显著下降，就进行剪枝。
- 另一种方法是使用统计检验，如卡方检验，来评估剪枝是否显著改善模型性能。
- 一些剪枝算法使用复杂度度量，如代价复杂性剪枝，来权衡树的复杂度和性能。

决策树剪枝是为了达到一个平衡，既能拟合训练数据，又能在未见过的数据上泛化良好。剪枝过程的目标是减小树的复杂度，以避免过拟合，并确保模型能够更好地应对新数据。选择何时进行剪枝以及如何剪枝通常需要根据具体的问题和数据来确定。

五.代码示例：

使用鸢尾花数据集（Iris dataset）来训练一个决策树分类器。演示如何使用scikit-learn库实现一个基本的分类决策树模型

pip install scikit-learn
# 导入必要的库
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

# 加载鸢尾花数据集
iris = datasets.load_iris()
X = iris.data # 特征矩阵
y = iris.target # 目标向量

# 划分数据集为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建决策树分类器
clf = DecisionTreeClassifier()

# 在训练集上拟合模型
clf.fit(X_train, y_train)

# 在测试集上进行预测
y_pred = clf.predict(X_test)

# 计算模型的准确性
accuracy = accuracy_score(y_test, y_pred)
print(f"模型准确性: {accuracy:.2f}")

# 可以可视化决策树
# from sklearn.tree import export_text
# tree_rules = export_text(clf, feature_names=iris.feature_names)
# print(tree_rules)