12天summer----初级算法梳理-决策树算法梳理_summer 计算专题突破-CSDN博客

本文链接：https://blog.csdn.net/beautiful_well/article/details/98872897

本文介绍了决策树算法在分类和回归问题中的应用，强调了信息熵在选择分列属性中的作用，并探讨了限制树深度防止过拟合的方法。此外，还提到了CART算法以及决策树的剪枝技术，包括预剪枝和后剪枝，以增强模型的泛化能力。

摘要由CSDN通过智能技术生成

决策树算法是根据数据的属性采用树状结构建立的一种决策模型，通过该决策体系，决策树算法既可以求解分类问题，即对应的目标值是类别型数据，也可以应用于回归预测问题多的求解，其输出值是连续的实数值。决策树分类则是采用归纳学习的方法，它通过信息论的相关原理将数据集的类别差异进行归纳，然后建立类别标准。

信息熵就是决策树方法中分支产生的衡量标准之一。对于每个节点，在每一次选择分列属性时，计算这种分类所带来的信息熵的变化（也就是信息增益），并比较不同分类下的信息增益的大小。

from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
iris = load_iris() 
X=iris.data
y=iris.target
#这里设置criterion为entropy为ID3算法
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=42) 
tree = DecisionTreeClassifier(random_state=0)
tree.fit(X_train, y_train) 
print("Accuracy on training set: {:.3f}".format(tree.score(X_train, y_train))) 
print("Accuracy on test set: {:.3f}".format(tree.score(X_test, y_test)))

限制树的深度可以减少过拟合。这会降低训练集的精度，但可以提高测试集的精度：

tree = DecisionTreeClassifier(max_depth=4, random_state=0) 
tree.fit(X_train, y_train) 
print("Accuracy on training set: {:.3f}".format(tree.score(X_train, y_train))) 
print("Accuracy on test set: {:.3f}".format(tree.score(X_test, y_test)))

分析决策树

利用 tree 模块的 export_graphviz 函数来将树可视化。这个函数会生成一个 .dot 格式的文件，这是一种用于保存图形的文本文件格式。我们设置为结点添加颜色的选项，颜色表示每个结点中的多数类别，同时传入类别名称和特征名称，这样可以对树正确标记：

from sklearn.tree import export_graphviz 
export_graphviz(tree, out_file="tree.dot", class_names=['setosa', 'versicolor', 'virginica'], feature_names=iris.feature_names, impurity=False, filled=True)

import graphviz  
with open("tree.dot") as f:     
    dot_graph = f.read() 
graphviz.Source(dot_graph)