监督学习 - 决策树（Decision Trees）

草明

已于 2024-01-12 11:14:51 修改

阅读量792

点赞数 9

分类专栏：数据结构与算法文章标签：决策树算法机器学习

于 2024-01-07 21:55:52 首次发布

本文链接：https://blog.csdn.net/galoiszhou/article/details/135445640

版权

数据结构与算法专栏收录该内容

88 篇文章

订阅专栏

本文介绍了决策树作为机器学习模型的基础概念，包括其树状结构、划分规则、递归构建和预测过程。着重阐述了决策树的可解释性、对异常值的鲁棒性和适用场景。并给出了使用Python和scikit-learn进行决策树分类的示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

什么是机器学习

决策树（Decision Trees）是一种基于树形结构进行决策的模型，广泛应用于分类和回归任务。它通过对数据集进行递归划分，构建一棵树，每个节点代表一个特征，每个分支代表一个决策规则，叶节点存储一个输出值。以下是决策树的基本原理和特点：

基本原理

树结构：决策树由树结构组成，包含根节点、内部节点和叶节点。每个内部节点表示一个特征，每个叶节点表示一个输出值。
划分规则：决策树的构建过程涉及选择最佳的特征进行划分，使得划分后的子集更加纯净。常见的划分指标包括信息熵、基尼系数等。
递归分裂：构建决策树的过程是递归的，对每个节点重复选择最佳特征进行划分，直到满足停止条件（如达到最大深度、节点包含的样本数量小于阈值等）。
预测：对于新样本，通过从根节点开始沿着树的路径进行遍历，最终到达叶节点，叶节点的输出值即为模型的预测结果。

特点

可解释性强：决策树的决策过程直观易懂，能够提供清晰的解释。
对异常值不敏感：决策树对于异常值和噪声的影响较小。
可处理混合数据类型：决策树可以处理数值型和类别型特征。
不需要特征缩放：决策树不受特征尺度的影响，不需要进行特征缩放。

适用场景

分类问题和回归问题。
需要模型可解释性的场景，如医学诊断、信用评估等。
数据包含混合类型的特征。

代码示例（使用Python和`scikit-learn`）

以下是一个简单的使用决策树进行分类的示例：

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report

# 加载数据集
iris = load_iris()
X = iris.data
y = iris.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建决策树模型
model = DecisionTreeClassifier()

# 训练模型
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

# 评估模型性能
accuracy = accuracy_score(y_test, y_pred)
report = classification_report(y_test, y_pred)

print(f'Accuracy: {accuracy}')
print(f'Classification Report:\n{report}')