机器学习之决策树概述

最新推荐文章于 2024-07-22 09:59:37 发布

m0_73370205

最新推荐文章于 2024-07-22 09:59:37 发布

阅读量43

点赞数

文章标签：机器学习决策树人工智能

本文链接：https://blog.csdn.net/m0_73370205/article/details/134637904

版权

引言

当谈到机器学习中的决策树时，通常指的是一种用于分类和回归任务的监督学习模型。决策树通过对数据集进行递归的二分过程，基于特征的条件进行决策，最终生成一棵树形结构。

性质特征

树的结构： 决策树是一个由节点（nodes）和边（edges）组成的层次结构。树的最顶层是根节点，每个内部节点表示对一个特征的测试，每个叶节点表示一个类别（或回归值）。
节点和分裂： 决策树在每个节点上选择最佳特征进行分裂，以将数据划分为不同的子集。选择最佳特征的标准通常是最小化子集的不纯度（impurity）或最大化信息增益（information gain）。
不纯度度量： 在分类任务中，常用的不纯度度量包括基尼不纯度（Gini impurity）和熵（Entropy）。在回归任务中，常用的度量是平方误差。
剪枝： 为了防止过拟合（overfitting），可以对生成的树进行剪枝。剪枝可以通过合并一些节点或删除一些子树来实现，以提高模型的泛化能力。
特征重要性： 决策树可以提供每个特征对于模型的重要性排序。这可以通过观察特征在树中的分裂次数或降低不纯度的程度来确定。
随机森林： 随机森林是一种基于决策树的集成学习方法，通过构建多个决策树并取其结果的平均值或多数投票来提高模型的鲁棒性和泛化能力。
决策树的应用： 决策树广泛用于分类和回归问题，例如在医学诊断、金融欺诈检测、客户分类等领域。
缺点： 决策树容易过拟合，对数据的小变化敏感。因此，常常需要采用剪枝等技术来控制模型的复杂度。

应用代码

以下是一个简单的Python代码示例，使用scikit-learn库中的决策树模型进行分类任务。在这个例子中，将使用鸢尾花数据集（Iris dataset）：

# 导入必要的库
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

# 加载数据集
iris = load_iris()
X = iris.data
y = iris.target

# 将数据集分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 初始化决策树分类器
clf = DecisionTreeClassifier(random_state=42)

# 在训练集上训练模型
clf.fit(X_train, y_train)

# 在测试集上进行预测
y_pred = clf.predict(X_test)

# 计算准确度
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.2f}")