使用机器学习进行疾病预测 -- 机器学习项目基础篇（3）

最新推荐文章于 2024-06-26 09:07:37 发布

python收藏家

最新推荐文章于 2024-06-26 09:07:37 发布

阅读量1.6k

点赞数 2

分类专栏：机器学习数据科学 python 文章标签：机器学习数据科学 python

本文链接：https://blog.csdn.net/qq_42034590/article/details/131350512

版权

本文旨在实现一个强大的机器学习模型，可以根据他/她所拥有的症状有效地预测人类的疾病。让我们看看如何解决这个机器学习问题：

方法：

收集数据：数据准备是任何机器学习问题的主要步骤。我们将使用来自Kaggle的数据集来解决这个问题。该数据集由两个CSV文件组成，一个用于训练，一个用于测试。数据集中总共有133列，其中132列表示症状，最后一列是预后。
清理数据：清理是机器学习项目中最重要的一步。数据的质量决定了机器学习模型的质量。因此，在将数据馈送到模型进行训练之前，总是需要清理数据。在我们的数据集中，所有列都是数字列，目标列即预后是字符串类型并且使用标签编码器被编码为数字形式。
模型构建：在收集和清理数据之后，数据就准备好了，可以用来训练机器学习模型。我们将使用这些经过清理的数据来训练支持向量分类器，朴素贝叶斯分类器和随机森林分类器。我们将使用混淆矩阵来确定模型的质量。
推断：在训练三个模型之后，我们将通过结合所有三个模型的预测来预测输入症状的疾病。这使得我们的整体预测更加稳健和准确。

最后，我们将定义一个函数，该函数以逗号分隔的症状作为输入，通过使用训练的模型根据症状预测疾病，并以JSON格式返回预测结果。

具体操作

在这里插入图片描述
确保下载了Training和Testing，并将train.csv和test.csv放入数据集文件夹中。打开jupyter notebook并单独运行代码以更好地理解。

import numpy as np
import pandas as pd
from scipy.stats import mode
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.svm import SVC
from sklearn.naive_bayes import GaussianNB
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, confusion_matrix
 
%matplotlib inline

阅读数据集

首先，我们将使用pandas库从文件夹中加载数据集。在阅读数据集时，我们将删除null列。此数据集是一个干净的数据集，没有空值，所有特征都由0和1组成。每当我们解决分类任务时，有必要检查目标列是否平衡。我们将使用条形图来检查数据集是否平衡。

# Reading the train.csv by removing the
# last column since it's an empty column
DATA_PATH = "dataset/Training.csv"
data = pd.read_csv(DATA_PATH).dropna(axis = 1)
 
# Checking whether the dataset is balanced or not
disease_counts = data["prognosis"].value_counts()
temp_df = pd.DataFrame({
   
    "Disease": disease_counts.index,
    "Counts": disease_counts.values
})
 
plt.figure(figsize = (18,8))
sns.barplot(x = "Disease", y = "Counts", data = temp_df)
plt.xticks(rotation=90)
plt.show()

在这里插入图片描述
从上面的图中，我们可以观察到数据集是平衡的数据集，即每种疾病正好有120个样本，不需要进一步的平衡。我们可以注意到我们的目标列，即预测列是对象数据类型，这种格式不适合训练机器学习模型。因此，我们将使用标签编码器将预测列转换为数值数据类型。标签编码器通过为标签分配唯一索引来将标签转换为数字形式。如果标签的总数是n，则分配给每个标签的数字将在0到n-1之间。

# Encoding the target value into numerical
# value using LabelEncoder
encoder = LabelEncoder()
data["prognosis"] = encoder.fit_transform(data["prognosis"])

划分数据以训练和测试模型

现在，我们已经通过删除Null值并将标签转换为数字格式来清理数据，现在是时候拆分数据以训练和测试模型了。我们将数据分割为80：20格式，即80%的数据集将用于训练模型，20%的数据将用于评估模型的性能。

X = data.iloc[:,:-1]
y = data.iloc[:, -1]
X_train, X_test, y_train, y_test =train_test_split(
  X, y, test_size = 0.2, random_state = 24)
 
print(f"Train: {
     X_train.shape}, {
     y_train.shape}")
print(f"Test: {
     X_test.shape},