糖尿病数据分类（KNN、Decision tree、SVC、Naive bayes、Gradient boosting、Neural network）

最新推荐文章于 2024-04-12 18:02:12 发布

萌新待开发

最新推荐文章于 2024-04-12 18:02:12 发布

阅读量1.1k

点赞数 3

分类专栏： ᕦ 机器学习 ᕤ 文章标签：机器学习分类 KNN 监督学习

本文链接：https://blog.csdn.net/qq_44785318/article/details/118493541

版权

ᕦ 机器学习 ᕤ 专栏收录该内容

68 篇文章 34 订阅

订阅专栏

该博客使用pandas、numpy、matplotlib等库对糖尿病数据集进行预处理和可视化，展示了不同模型（KNN、决策树、SVM、朴素贝叶斯、梯度提升）的预测性能。通过混淆矩阵、准确率、F1分数等指标评估模型，并对比了它们在训练集和测试集上的表现。

摘要由CSDN通过智能技术生成

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os
import scipy as sp
import warnings
warnings.filterwarnings('ignore')

diabetes = pd.read_csv('diabetes.csv')
#
# print(diabetes.groupby('Outcome').size())
# print(diabetes.describe())
sns.countplot(diabetes['Outcome'],label="Count")
plt.show()

corr_data = diabetes.corr()
sns.clustermap(corr_data,annot = True, fmt = '.2f')
plt.show()

sns.set_palette(sns.color_palette("Set1", 8))
plt.figure(figsize=(15,7))
sns.heatmap(diabetes.corr(),annot=True,vmin=-1,vmax=1,cmap="YlGnBu")
plt.show()

sns.set_palette(sns.color_palette("Set1", 8))
sns.pairplot(data=diabetes,hue="Outcome",corner=True)
plt.show()

sns.lineplot(x='Glucose', y= 'Insulin', data=diabetes)
plt.show()

from sklearn import metrics
from sklearn.metrics import  classification_report, accuracy_score, precision_score, recall_score,f1_score
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import confusion_matrix,ConfusionMatrixDisplay,plot_confusion_matrix
plt.style.use('ggplot')
from sklearn.model_selection import train_test_split
X = diabetes.drop(columns = 'Outcome')
y = diabetes['Outcome']

X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.33,random_state=42)

"""
KNN
"""
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=10)
knn.fit(X_train,y_train)
y_pred=knn.predict(X_test)

from sklearn.metrics import accuracy_score,classification_report,confusion_matrix
from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error

print("Classification Report is:\n",classification_report(y_test,y_pred))
print("Confusion Matrix:\n",confusion_matrix(y_test,y_pred))
print("Training Score:\n",knn.score(X_train,y_train)*100)
print("Mean Squared Error:\n",mean_squared_error(y_test,y_pred))
print("R2 score is:\n",r2_score(y_test,y_pred))
print(accuracy_score(y_test,y_pred)*100)
print('Accuracy of K-NN classifier on training set: {:.2f}'.format(knn.score(X_train, y_train)))
print('Accuracy of K-NN classifier on test set: {:.2f}'.format(accuracy_score(y_test,y_pred)))

"""
Decision tree
"""
from sklearn.tree import DecisionTreeClassifier
dtree = DecisionTreeClassifier(max_depth=8, random_state=100,criterion='entropy')

dtree.fit(X_train,y_train)
y_pred=dtree.predict(X_test)
from sklearn.metrics import accuracy_score,classification_report,confusion_matrix
from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error
print("Classification Report is:\n",classification_report(y_test,y_pred))
print("Confusion Matrix:\n",confusion_matrix(y_test,y_pred))
print("Training Score:\n",dtree.score(X_train,y_train)*100)
print("Mean Squared Error:\n",mean_squared_error(y_test,y_pred))
print("R2 score is:\n",r2_score(y_test,y_pred))
print(accuracy_score(y_test,y_pred)*100)
print("Accuracy on training set: {:.3f}".format(dtree.score(X_train, y_train)))
print("Accuracy on test set: {:.3f}".format(accuracy_score(y_test,y_pred)))

"""
Support vector machine
"""
from sklearn.svm import SVC

svc = SVC()
svc.fit(X_train, y_train)
y_pred=svc.predict(X_test)
from sklearn.metrics import accuracy_score,classification_report,confusion_matrix
from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error
print("Classification Report is:\n",classification_report(y_test,y_pred))
print("Confusion Matrix:\n",confusion_matrix(y_test,y_pred))
print("Training Score:\n",svc.score(X_train,y_train)*100)
print("Mean Squared Error:\n",mean_squared_error(y_test,y_pred))
print("R2 score is:\n",r2_score(y_test,y_pred))
print(accuracy_score(y_test,y_pred)*100)
print("Accuracy on training set: {:.3f}".format(svc.score(X_train, y_train)))
print("Accuracy on test set: {:.3f}".format(accuracy_score(y_test,y_pred)))


"""
Naive bayes
"""
from sklearn.naive_bayes import GaussianNB
gnb = GaussianNB()
gnb.fit(X_train,y_train)
y_pred=gnb.predict(X_test)
from sklearn.metrics import accuracy_score,classification_report,confusion_matrix
from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error
print("Classification Report is:\n",classification_report(y_test,y_pred))
print("Confusion Matrix:\n",confusion_matrix(y_test,y_pred))
print("Training Score:\n",gnb.score(X_train,y_train)*100)
print("Mean Squared Error:\n",mean_squared_error(y_test,y_pred))
print("R2 score is:\n",r2_score(y_test,y_pred))
print(accuracy_score(y_test,y_pred)*100)
print("Accuracy on training set: {:.3f}".format(gnb.score(X_train, y_train)))
print("Accuracy on test set: {:.3f}".format(accuracy_score(y_test,y_pred)))



"""
Gradient boosting
"""
from sklearn.ensemble import GradientBoostingClassifier
gbc=GradientBoostingClassifier()
gbc.fit(X_train,y_train)
y_pred=gbc.predict(X_test)
from sklearn.metrics import accuracy_score,classification_report,confusion_matrix
from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error
print("Classification Report is:\n",classification_report(y_test,y_pred))
print("Confusion Matrix:\n",confusion_matrix(y_test,y_pred))
print("Training Score:\n",gbc.score(X_train,y_train)*100)
print("Mean Squared Error:\n",mean_squared_error(y_test,y_pred))
print("R2 score is:\n",r2_score(y_test,y_pred))
print(accuracy_score(y_test,y_pred)*100)
print("Accuracy on training set: {:.3f}".format(gbc.score(X_train, y_train)))
print("Accuracy on test set: {:.3f}".format(accuracy_score(y_test,y_pred)))



"""
Neural network
"""
from sklearn.neural_network import MLPClassifier
mlp = MLPClassifier(random_state=42)
mlp.fit(X_train, y_train)
print("Accuracy on training set: {:.2f}".format(mlp.score(X_train, y_train)))
print("Accuracy on test set: {:.2f}".format(mlp.score(X_test, y_test)))
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.fit_transform(X_test)
mlp = MLPClassifier(random_state=0)
mlp.fit(X_train_scaled, y_train)
print("Accuracy on training set: {:.3f}".format(
    mlp.score(X_train_scaled, y_train)))
print("Accuracy on test set: {:.3f}".format(mlp.score(X_test_scaled, y_test)))
mlp = MLPClassifier(max_iter=1000, alpha=1, random_state=0)
mlp.fit(X_train_scaled, y_train)
print("Accuracy on training set: {:.3f}".format(
    mlp.score(X_train_scaled, y_train)))
print("Accuracy on test set: {:.3f}".format(mlp.score(X_test_scaled, y_test)))

数据集下载

萌新待开发

关注

3
点赞
踩
22

收藏

觉得还不错? 一键收藏
打赏
1
评论
糖尿病数据分类（KNN、Decision tree、SVC、Naive bayes、Gradient boosting、Neural network）

import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport osimport scipy as spimport warningswarnings.filterwarnings('ignore')diabetes = pd.read_csv('diabetes.csv')## print(diabetes.groupby('Outcome').size(.
复制链接

扫一扫