决策树剪枝：解决模型过拟合【决策树、机器学习】

修炼室

已于 2024-10-02 16:16:00 修改

阅读量2.4k

点赞数

分类专栏： AI 经历/经验文章标签：机器学习决策树剪枝

于 2023-09-30 13:30:39 首次发布

本文链接：https://blog.csdn.net/qq_22841387/article/details/133431866

版权

AI 同时被 2 个专栏收录

75 篇文章

订阅专栏

经历/经验

9 篇文章

订阅专栏

如何通过剪枝解决决策树的过拟合问题

决策树是一种功能强大的机器学习算法，它能够进行分类和回归任务。然而，决策树模型往往容易出现过拟合，即在训练数据上表现得过于精确，导致模型在处理未见数据时表现不佳。为了解决这一问题，可以使用剪枝技术，来控制树的复杂度，提升模型的泛化能力。

过拟合的威胁

过拟合是机器学习中的常见问题，尤其在决策树这种容易生成复杂结构的模型中尤为明显。当决策树为了最大化拟合训练数据，不断细化每个分支时，它可能会将噪声或异常数据误认为是重要模式，进而生成过于复杂的决策树。虽然这种模型在训练集上表现出色，但在测试集或实际应用中常常失去泛化能力。

表现：在训练集上高准确率，在测试集上却表现不佳。
原因：模型对训练数据“记忆”过强，无法识别未见数据中的关键模式。

决策树剪枝：对抗过拟合

剪枝是指通过修剪树的分支，减少模型的复杂度，以提升模型的泛化能力。它可以通过控制树的大小，避免模型学习到过多的噪声数据。常见的剪枝方法分为前剪枝和后剪枝。

1. 前剪枝（Pre-pruning）

前剪枝是在构建决策树的过程中，通过提前设置停止条件来限制树的增长，以避免树过度复杂化。常用的前剪枝策略有：

限制树的最大深度。
设定分裂节点的最小样本数量。
要求节点的最大不纯度减少（如基尼指数、信息增益等）。

这些限制可以防止树变得过于复杂，从而减少过拟合的风险。

示例：限制树的最大深度

from sklearn.tree import DecisionTreeClassifier

# 创建一个最大深度为5的决策树
tree_classifier = DecisionTreeClassifier(max_depth=5)

# 训练模型
tree_classifier.fit(X_train, y_train)

# 在测试集上进行预测
y_pred = tree_classifier.predict(X_test)

在这个示例中，通过限制树的深度为5，防止了过深的树结构，减少了对数据噪声的过度拟合。

前剪枝的优点：

简单快捷：直接在树的生长过程中施加限制。
高效：相比后剪枝，前剪枝节省了模型评估的时间。

前剪枝的缺点：

潜在欠拟合：由于提前停止，可能导致模型没有充分学习数据的特征。

2. 后剪枝（Post-pruning）

后剪枝是在决策树完全构建之后，再通过删除不必要的分支来简化模型。该方法的工作原理是先生成一棵完整的树，然后通过计算每个分支的表现，去除那些对整体准确率影响较小的分支。

后剪枝的常见策略：

计算每个子树的不纯度，并在剪枝后对性能进行比较。
使用交叉验证来评估是否应该剪枝某个分支。

示例：手动实现后剪枝

from sklearn.tree import DecisionTreeClassifier
from sklearn.tree import _tree

# 定义一个递归函数进行剪枝
def prune_index(inner_tree, index, threshold):
    if inner_tree.value[index].min() < threshold:
        # 将该节点及其后续子节点剪枝
        inner_tree.children_left[index] = _tree.TREE_LEAF
        inner_tree.children_right[index] = _tree.TREE_LEAF

# 创建并训练一个完整的决策树
tree_classifier = DecisionTreeClassifier()
tree_classifier.fit(X_train, y_train)

# 设置剪枝的阈值
prune_threshold = 5  # 叶子节点的最小样本数量

# 执行剪枝
prune_index(tree_classifier.tree_, 0, prune_threshold)

# 进行预测
y_pred = tree_classifier.predict(X_test)

后剪枝的优点：

更灵活：通过完全构建树，可以更精确地判断哪些分支需要修剪。
更适应复杂场景：在噪声较大的数据集上，后剪枝常常能比前剪枝更好地提升泛化能力。

后剪枝的缺点：

计算开销大：需要先构建完整的树，再进行评估和剪枝，时间复杂度较高。

前剪枝与后剪枝的比较

比较项	前剪枝	后剪枝
时机	在树构建过程中提前停止树的生长	在树完全构建后进行剪枝
复杂度	时间复杂度低，计算效率高	需要构建完整树，时间复杂度较高
灵活性	对树的限制较严格，可能导致欠拟合	更灵活，通常能产生更简洁、准确的模型
适用场景	数据量大、噪声较少时，前剪枝表现较好	适用于噪声较大的数据，或者模型容易过拟合的情况
模型解释性	模型结构更简洁，易于解释	更适合复杂场景，但解释性可能不如前剪枝