【Python机器学习系列】建立朴素贝叶斯模型预测心脏疾病（完整实现过程）

最新推荐文章于 2024-02-07 23:10:30 发布

数据杂坛

最新推荐文章于 2024-02-07 23:10:30 发布

阅读量1.2k

点赞数 21

分类专栏：机器学习文章标签： python 机器学习人工智能算法

本文链接：https://blog.csdn.net/sinat_41858359/article/details/135985917

版权

机器学习专栏收录该内容

79 篇文章

订阅专栏

一、引言

前文回顾：

一文彻底搞懂机器学习中的归一化与反归一化问题

【Python机器学习系列】一文彻底搞懂机器学习中表格数据的输入形式（理论+源码）

【Python机器学习系列】一文带你了解机器学习中的Pipeline管道机制（理论+源码）

【Python机器学习系列】一文搞懂机器学习中的转换器和估计器（附案例）

【Python机器学习系列】一文讲透机器学习中的K折交叉验证（源码）

【Python机器学习系列】拟合和回归傻傻分不清？一文带你彻底搞懂它

【Python机器学习系列】建立决策树模型预测心脏疾病（完整实现过程）

【Python机器学习系列】建立支持向量机模型预测心脏疾病（完整实现过程）

【Python机器学习系列】建立逻辑回归模型预测心脏疾病（完整实现过程）

【Python机器学习系列】建立KNN模型预测心脏疾病（完整实现过程）

【Python机器学习系列】建立随机森林模型预测心脏疾病（完整实现过程）

【Python机器学习系列】建立梯度提升模型预测心脏疾病（完整实现过程）

【Python机器学习系列】建立XGBoost模型预测心脏疾病（完整实现过程）

【Python机器学习系列】建立LightGBM模型预测心脏疾病（完整实现过程）

【Python机器学习系列】建立AdaBoost模型预测心脏疾病（完整实现过程）

对于表格数据，一套完整的机器学习建模流程如下：

针对不同的数据集，有些步骤不适用即不需要做，其中橘红色框为必要步骤，由于数据质量较高，本文有些步骤跳过了，跳过的步骤将单独出文章总结！同时欢迎大家关注翻看我之前的一些相关文章。

朴素贝叶斯（Naive Bayes）是一种基于贝叶斯定理和特征条件独立性假设的概率统计分类算法。核心思想是通过已知的特征和类别的联合概率分布来计算后验概率，并根据后验概率进行分类。它假设所有特征之间相互独立，即每个特征对于分类结果的贡献是相互独立的，这也是“朴素”一词的来源。朴素贝叶斯算法有几个常见的变体，包括多项式朴素贝叶斯、伯努利朴素贝叶斯和高斯朴素贝叶斯。它们在处理不同类型的数据和特征上有所区别，例如多项式朴素贝叶斯适用于多项式分布的特征，伯努利朴素贝叶斯适用于二值特征，而高斯朴素贝叶斯适用于连续特征。

朴素贝叶斯算法的优点包括简单、高效、易于实现和对小规模数据集表现良好。然而，它的主要缺点是对特征之间的相关性较为敏感，因为它假设特征之间相互独立。在实际应用中，朴素贝叶斯算法通常与其他机器学习算法结合使用，以提高分类性能。

本文利用scikit-learn（一个常用的机器学习库）实现了基于心脏疾病数据集建立高斯朴素贝叶斯模型对心脏疾病患者进行分类预测的完整过程。

二、实现过程

1、准备数据

data = pd.read_csv(r'Dataset.csv')
df = pd.DataFrame(data)

df：

数据基本信息：

print(df.head())
print(df.info())
print(df.shape)
print(df.columns)
print(df.dtypes)
cat_cols = [col for col in df.columns if df[col].dtype == "object"] # 类别型变量名
num_cols = [col for col in df.columns if df[col].dtype != "object"] # 数值型变量名

2、提取特征变量和目标变量

target = 'target'
features = df.columns.drop(target)
print(data["target"].value_counts()) # 顺便查看一下样本是否平衡

3、数据集划分

# df = shuffle(df)
X_train, X_test, y_train, y_test = train_test_split(df[features], df[target], test_size=0.2, random_state=0)

4、模型的构建与训练

# 模型的构建与训练
model = GaussianNB()
model.fit(X_train, y_train)

本文选择高斯朴素贝叶斯模型。

5、模型的推理与评价

y_pred = model.predict(X_test)
y_scores = model.predict_proba(X_test)
acc = accuracy_score(y_test, y_pred) # 准确率acc
cm = confusion_matrix(y_test, y_pred) # 混淆矩阵
cr = classification_report(y_test, y_pred) # 分类报告
fpr, tpr, thresholds = roc_curve(y_test, y_scores[:, 1], pos_label=1) # 计算ROC曲线和AUC值,绘制ROC曲线
roc_auc = auc(fpr, tpr)
plt.figure()
plt.plot(fpr, tpr, color='darkorange', lw=2, label='ROC curve (area = %0.2f)' % roc_auc)
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic')
plt.legend(loc="lower right")
plt.show()

cm：

cr:

ROC：

作者简介：

读研期间发表6篇SCI数据挖掘相关论文，现在某研究院从事数据算法相关科研工作，结合自身科研实践经历不定期分享关于Python、机器学习、深度学习、人工智能系列基础知识与应用案例。致力于只做原创，以最简单的方式理解和学习，关注我一起交流成长。需要数据集和源码的小伙伴可以关注底部公众号添加作者微信。