决策树算法介绍：原理与案例实现

不知名靓仔

于 2024-08-09 09:55:42 发布

阅读量1k

点赞数 21

文章标签：决策树

本文链接：https://blog.csdn.net/qq_42072014/article/details/141054018

版权

引言

决策树是一种监督学习方法，广泛应用于分类和回归任务。它的直观性和解释性使其成为数据挖掘和机器学习领域中最受欢迎的算法之一。本文将介绍决策树的基本原理，并通过一个简单的案例来演示如何构建和使用决策树模型。

决策树基本概念

定义

决策树是一个树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，而每个叶节点代表一种类别（对于分类任务）或输出值（对于回归任务）。

构造过程

构建决策树的过程通常遵循递归分裂策略。从根节点开始，算法选择最佳属性进行分割，然后根据属性的不同取值生成子节点。这一过程重复进行，直到满足停止条件，如所有样本属于同一类、达到最大深度或剩余样本数量低于阈值等。

分裂准则

决策树的分裂准则用于衡量属性分割的质量。常见的准则有信息增益、增益率和基尼指数。

信息增益：选择使得信息增益最大的属性作为分割属性。信息增益定义为分割前后的熵差。
增益率：为了克服信息增益偏向于选择具有许多值的属性的问题，增益率考虑了信息增益与该属性的信息熵之比。
基尼指数：用来评估数据集的纯度，选择使得基尼指数最小化的属性。

决策树算法流程

数据准备：收集并清洗数据，处理缺失值和异常值。
特征选择：根据选定的分裂准则计算每个属性的信息增益或其他指标。
树的构建：选择最优属性作为根节点，根据属性值划分数据集，递归地对每个子集重复此过程。
剪枝：为了避免过拟合，可以采用预剪枝（在构建过程中提前停止）或后剪枝（在完整构建后删除某些子树）的方法。
评估与验证：使用交叉验证等方法评估模型性能。

案例实现

数据集

假设我们有一个简单的数据集，包含四个特征：年龄（Young, Middle-aged, Senior）、有工作（Yes, No）、有自己的房子（Yes, No）和信贷情况（Good, Bad），以及目标变量：是否贷款（Yes, No）。

年龄	有工作	自己的房子	信贷情况	是否贷款
Young	No	No	Good	No
Young	No	No	Bad	No
Young	Yes	No	Good	Yes
Young	Yes	No	Bad	No
Middle-aged	No	Yes	Good	Yes
Middle-aged	No	Yes	Bad	No
Middle-aged	Yes	Yes	Good	Yes
Middle-aged	Yes	Yes	Bad	Yes
Middle-aged	No	No	Good	No
Middle-aged	No	No	Bad	No
Senior	No	Yes	Good	Yes
Senior	No	Yes	Bad	No
Senior	Yes	No	Good	Yes
Senior	Yes	No	Bad	No
Senior	No	No	Good	No

实现步骤

计算信息增益：
- 计算原始数据集的信息熵。
- 对于每个特征，计算该特征不同取值的信息熵。
- 使用信息增益公式计算每个特征的信息增益。
选择最优特征：
- 选择信息增益最大的特征作为根节点。
- 根据该特征的不同取值分割数据集。
递归构建树：
- 对于每个子集，重复上述步骤，直到满足停止条件。

Python 示例代码

python

深色版本

1from sklearn.datasets import load_iris
2from sklearn.tree import DecisionTreeClassifier
3from sklearn.model_selection import train_test_split
4from sklearn.metrics import accuracy_score
5import pandas as pd
6
7# 数据准备
8data = {'Age': ['Young', 'Young', 'Young', 'Young', 'Middle-aged',
9                'Middle-aged', 'Middle-aged', 'Middle-aged', 'Middle-aged',
10                'Middle-aged', 'Senior', 'Senior', 'Senior', 'Senior', 'Senior'],
11        'Job': ['No', 'No', 'Yes', 'Yes', 'No', 'No', 'Yes', 'Yes', 'No', 'No',
12                'No', 'No', 'Yes', 'Yes', 'No'],
13        'House': ['No', 'No', 'No', 'No', 'Yes', 'Yes', 'Yes', 'Yes', 'No', 'No',
14                  'Yes', 'Yes', 'No', 'No', 'No'],
15        'Credit': ['Good', 'Bad', 'Good', 'Bad', 'Good', 'Bad', 'Good', 'Bad',
16                   'Good', 'Bad', 'Good', 'Bad', 'Good', 'Bad', 'Good'],
17        'Loan': ['No', 'No', 'Yes', 'No', 'Yes', 'No', 'Yes', 'Yes', 'No',
18                 'No', 'Yes', 'No', 'Yes', 'No', 'No']}
19df = pd.DataFrame(data)
20
21# 特征编码
22df['Age'] = df['Age'].map({'Young': 0, 'Middle-aged': 1, 'Senior': 2})
23df['Job'] = df['Job'].map({'No': 0, 'Yes': 1})
24df['House'] = df['House'].map({'No': 0, 'Yes': 1})
25df['Credit'] = df['Credit'].map({'Bad': 0, 'Good': 1})
26df['Loan'] = df['Loan'].map({'No': 0, 'Yes': 1})
27
28# 划分训练集和测试集
29features = ['Age', 'Job', 'House', 'Credit']
30X = df[features]
31y = df['Loan']
32
33X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
34
35# 构建决策树模型
36model = DecisionTreeClassifier(criterion='entropy')
37model.fit(X_train, y_train)
38
39# 预测
40predictions = model.predict(X_test)
41
42# 评估
43accuracy = accuracy_score(y_test, predictions)
44print(f"Accuracy: {accuracy:.2f}")