机器学习实战：决策树与随机森林预测心脏病分类问题

最新推荐文章于 2024-03-17 09:29:43 发布

HUSTのstupid bot

最新推荐文章于 2024-03-17 09:29:43 发布

阅读量2.6k

点赞数 32

文章标签：机器学习决策树随机森林

本文链接：https://blog.csdn.net/HUSTGO/article/details/136589333

版权

决策树是一种流行的机器学习算法，用于分类和回归任务。它通过从数据特征中学习简单的决策规则来构建模型。决策树的核心思想是根据数据特征的不同值将数据集分割成较小的子集，并在每个分割点选择最优的特征。这一过程递归进行，直到达到预设的停止条件，如树达到最大深度或节点中的样本数量低于最小阈值。决策树的可视化非常直观，易于理解，这使得它不仅在机器学习领域受到欢迎，也能够让非专业人士理解模型的决策过程。

随机森林是一种集成学习方法，它通过构建多个决策树并汇总它们的预测结果来提高模型的准确性和鲁棒性。每棵树在训练时使用的是随机选择的数据样本和特征，这种随机性有助于减少模型的过拟合，提高对新数据的泛化能力。随机森林在处理大型数据集时表现出色，且能够有效处理具有高维特征的数据。由于其优异的性能和易用性，随机森林被广泛应用于各种机器学习任务中，包括但不限于分类、回归和特征选择。

本项目的数据集来自UCI机器学习库中的心脏病数据集，它包含了患者的医疗指标以及是否患有心脏病的标签，是研究二分类问题的一个典型例子。这些工具和数据集的结合为心脏病的预测提供了一个实际应用场景，展示了机器学习在医疗健康领域的潜力。（如果需要数据集可以私信我）

在这个项目中，我们使用了几个关键的Python包来处理数据、构建模型以及评估模型性能。首先，pandas库被用于读取数据集、探索数据以及进行数据清洗。matplotlib和seaborn库则用于数据可视化，它们帮助我们通过图表和热力图等形式来理解数据特征之间的关系和分布。scikit-learn是机器学习中使用最广泛的库之一，提供了大量的算法实现和数据处理方法。在本项目中，scikit-learn被用于分割数据集、决策树和随机森林模型的构建、参数优化以及性能评估。使用GridSearchCV，我们能够自动化地搜索模型的最优参数，大大提高了模型调优的效率和准确性。

下面是各个模块的代码：

1. 数据加载与初步探索：通过pandas库加载心脏病数据集，并使用.info()方法获取数据的基本信息，如列名、数据类型及非空值计数，为后续的数据处理和分析提供初步概览。

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# 加载数据集
df = pd.read_csv('UCI_Heart_Disease_Dataset.csv')

# 基本信息
print("\ndf set info:")
df.info()

2. 数据可视化：利用matplotlib和seaborn库绘制相关性热力图和特征分布图，识别不同特征之间的关联性以及单个特征的分布情况，为特征选择和模型建立提供视觉证据。

# 查看不同特征之间的相关关系
plt.figure(figsize=(12,10))
corr = df.corr()
sns.heatmap(data=corr, annot=True, square=True, fmt='.2f')
plt.show()

# 为每个特征绘制分布图
for column in df.columns[:-1]:  # 排除目标列
    plt.figure()  # 创建一个新的图形
    sns.histplot(df[column], kde=True)  # 绘制直方图并添加 KDE 曲线
    plt.title(f'Feature Distribution: {column}')  # 设置图形标题
    plt.xlabel(column)  # 设置 x 轴标签
    plt.ylabel('Frequency')  # 设置 y 轴标签
    plt.show()

（其余分布图略）

3. 数据分割：数据被分割成特征集X和目标变量y，然后使用train_test_split方法将数据集划分为训练集和测试集。这一步骤对于评估模型性能和防止过拟合至关重要。

# 准备数据
X = df.drop('target', axis=1)  # 特征集
y = df['target']  # 目标变量

# 分割数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

4. 模型构建与参数调优 - 决策树：初始化决策树分类器，并通过GridSearchCV进行参数网格搜索，以找到最优的模型参数。这个过程自动化了参数选择，提高了模型的准确度。

# 定义决策树的参数网格
param_grid = {
    'max_depth': [None] + list(range(1, 21)),  # None加上1到20的整数
    'min_samples_split': list(range(2, 21)),  # 2到20的整数
    'max_leaf_nodes': [None] + list(range(3, 21))  # None加上3到20的整数
}

# 初始化决策树分类器
clf = DecisionTreeClassifier(random_state=42)
# 初始化网格搜索
grid_search = GridSearchCV(clf, param_grid, cv=5, scoring='accuracy', n_jobs=-1)
# 运行网格搜索
grid_search.fit(X_train, y_train)
# 最佳参数
print("Best parameters:", grid_search.best_params_)

通过网格搜索，得出最佳参数：

{max_depth': 3, 'max_leaf_nodes': 7, 'min_samples_split': 2}

决策树的最大深度为3层，最多有7个叶节点，如果一个节点要进行分割，它必须至少有2个样本。

5. 模型评估 - 决策树：使用训练好的最佳决策树模型对测试集进行预测，并计算准确率来评估模型性能。同时，绘制决策树的可视化图表，直观展示模型的决策路径。

# 使用最佳参数的模型
best_clf = grid_search.best_estimator_
# 使用测试集进行预测
y_pred = best_clf.predict(X_test)
# 评估模型性能
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy with best parameters: {accuracy}")

# 可视化决策树
plt.figure(figsize=(20,10))
plot_tree(best_clf, filled=True, feature_names=X.columns, class_names=['No Disease', 'Disease'], rounded=True, fontsize=14)
plt.show()

其中，得到模型准确度：

Accuracy with best parameters: 0.8

可视化决策树：

6. 模型构建与参数调优 - 随机森林：与决策树类似，但这次使用随机森林分类器。再次通过GridSearchCV进行参数搜索，寻找提升随机森林性能的最佳参数组合。

# 初始化随机森林分类器
rf_clf = RandomForestClassifier(random_state=42)
# 定义随机森林的参数网格
param_grid_rf = {
    'n_estimators': [10, 50, 70, 90, 100, 120, 150, 200],
    'max_depth': [1, 2, 3, 5, 7, 9, 11, 13],
    'min_samples_split': [2, 5, 10, 20, 50, 100, 120, 150],
    'max_leaf_nodes': [None, 5, 8, 10, 15, 20]
}

# 初始化网格搜索 - 随机森林
grid_search_rf = GridSearchCV(rf_clf, param_grid_rf, cv=5, scoring='accuracy', n_jobs=-1)
# 运行网格搜索 - 随机森林
grid_search_rf.fit(X_train, y_train)

# 最佳参数 - 随机森林
print("Random Forest Best parameters:", grid_search_rf.best_params_)

通过网格搜索，得到最佳参数：

{'max_depth': 3, 'max_leaf_nodes': None, 'min_samples_split': 5, 'n_estimators': 90}

随机森林中每棵树的最大深度为3层，构建树时叶节点的最大数量没有限制，一个节点在被考虑进一步分割之前，它必须至少有5个样本，随机森林中树的数量为90棵。

7. 模型评估 - 随机森林：使用最佳参数的随机森林模型对测试集数据进行预测，并计算准确率以评估模型的性能。随机森林模型通常会提供比单一决策树更好的泛化能力。

# 使用最佳参数的随机森林模型进行预测
best_rf_clf = grid_search_rf.best_estimator_
y_pred_rf = best_rf_clf.predict(X_test)

# 评估随机森林模型性能
accuracy_rf = accuracy_score(y_test, y_pred_rf)
print(f"Random Forest Accuracy with best parameters: {accuracy_rf}")

    Random Forest Accuracy with best parameters: 0.8833333333333333

与决策树相比，随机森林的准确度更高。

通过对心脏病数据集的深入分析与模型应用，本项目展现了决策树与随机森林在医疗健康领域的实际应用潜力。利用精心调优的模型参数，我们不仅提高了预测心脏病存在的准确率，而且通过数据可视化加深了对特征关系的理解。决策树模型在简洁性和直观性方面表现出色，而随机森林则在准确性和鲁棒性方面展现了其优势。

尽管我们已经取得了显著的成果，但是未来的工作可以进一步探索更复杂的模型和特征工程技术，以解锁数据中潜藏的更深层次信息。考虑到模型的可解释性对于医疗领域的重要性，探索如何平衡模型的性能与解释性，将是我们改进方向的重要一环。

HUSTのstupid bot

关注

32
点赞
踩
50

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫