决策树详解：原理、应用与防止过拟合-CSDN博客

本文链接：https://blog.csdn.net/qq_43301351/article/details/113779614

本文介绍了决策树在分类和回归问题中的应用，通过一个动物识别的例子阐述其工作原理。讨论了如何解决python导入graphviz的报错问题，并探讨了决策树的纯叶结点与过拟合。为了防止过拟合，文章提出了预剪枝和后剪枝策略，并在乳腺癌数据集上展示了预剪枝效果。此外，文章还分析了特征重要性，强调了其正向且不表示类别关系的特点，并对比了决策树与线性模型在回归任务中的表现，指出决策树的优缺点，如易于可视化和受数据缩放影响小，但也易过拟合，泛化能力有限。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

决策树广泛用于分类和回归问题。比如我们要区分四种动物：鹰、企鹅、海豚、熊，我可以由几个if/else来判断，

import numpy as np
import pandas as pd
import mglearn
import matplotlib.pyplot as plt
import graphviz
from sklearn.model_selection import train_test_split

mglearn.plots.plot_animal_tree()

在这里插入图片描述

注意，如果报错 python导入graphviz报错：failed to execute [‘dot’, ‘-Tpdf’, ‘-O’, ‘network.gv’], make sure the Graphviz… ，解决方法如下：
（1）首先pip，
pip install -i https://pypi.doubanio.com/simple/ graphviz
（2）然后去graphviz官网下载对应自己电脑系统的graphviz程序，将graphviz程序安装在电脑上，
（3）先添加用户变量PATH，注意不要删除PATH原有的内容，在原有内容后边加一个英文状态的;，然后将安装后的graphviz程序对应的路径粘贴在;后，点击确定。
（4）然后添加系统变量，因为我的系统变量里没有PATH，所以我新建了PATH，同样的，将安装后的graphviz程序对应的路径粘贴进去，点确定。
（5）然后关掉jupyter notebook，重新打开一次，就可以了。

如果树中某个结点所包含的数据点的目标值都相同，那么这个叶结点就是“纯的”。如果要对新数据点预测，首先判定这个点位于特征空间划分的哪个区域，然后将该区域的多数目标值（如果是纯的叶结点，就是单一目标值）作为预测结果。同样，决策树也可以用于回归任务，方法相同，基于每个结点的测试进行遍历，最终找到新数据点所属的叶结点，这一数据点的输出即为此叶结点中所有训练点的平均目标值。

如果所有叶结点都是纯的叶结点，这样的模型会非常复杂，模型高度过拟合。防止过拟合有两种策略：一种是及早停止树的生长，叫“预剪枝”;另一种是先构造树，然后删除或折叠信息量很少的结点，叫“后剪枝”。

在乳腺癌数据集上详细看一下预剪枝的效果，默认将树完全展开，

from sklearn.datasets import load_breast_cancer
from sklearn.tree import DecisionTreeClassifier
cancer=load_breast_cancer()
X_train,X_test,y_train,y_test=train_test_split(
    cancer.data,cancer.target,stratify=cancer.target,random_state=42)
tree=DecisionTreeClassifier(random_state=0)
tree.fit(X_train,y_train)
print('训练集准确度：{:.3f}'.format(tree.score(X_train,y_train)))
print('测试集准确度：{:.3f}'

【6】决策树