糖尿病预测模型

最新推荐文章于 2025-02-20 23:19:18 发布

Mrrunsen

最新推荐文章于 2025-02-20 23:19:18 发布

阅读量1.8k

点赞数 1

分类专栏： Python系列专栏文章标签：数据分析机器学习 python 人工智能大数据

本文链接：https://blog.csdn.net/Mrrunsen/article/details/117847712

版权

Python系列专栏专栏收录该内容

116 篇文章

订阅专栏

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

Pregnancies：怀孕次数
Glucose：葡萄糖测试值
BloodPressure：血压
SkinThickness：皮肤厚度
Insulin：胰岛素
BMI：身体质量指数
DiabetesPedigreeFunction：糖尿病遗传函数
Age：年龄
Outcome：糖尿病标签

# 载入数据
diabetes_data = pd.read_csv('diabetes.csv')
diabetes_data.head()

	Pregnancies	Glucose	BloodPressure	SkinThickness	Insulin	BMI	DiabetesPedigreeFunction	Age	Outcome
0	6	148	72	35	0	33.6	0.627	50	1
1	1	85	66	29	0	26.6	0.351	31	0
2	8	183	64	0	0	23.3	0.672	32	1
3	1	89	66	23	94	28.1	0.167	21	0
4	0	137	40	35	168	43.1	2.288	33	1

# 数据信息
diabetes_data.info(verbose=True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
Pregnancies                 768 non-null int64
Glucose                     768 non-null int64
BloodPressure               768 non-null int64
SkinThickness               768 non-null int64
Insulin                     768 non-null int64
BMI                         768 non-null float64
DiabetesPedigreeFunction    768 non-null float64
Age                         768 non-null int64
Outcome                     768 non-null int64
dtypes: float64(2), int64(7)
memory usage: 54.1 KB

# 数据描述
diabetes_data.describe()

	Pregnancies	Glucose	BloodPressure	SkinThickness	Insulin	BMI	DiabetesPedigreeFunction	Age	Outcome
count	768.000000	768.000000	768.000000	768.000000	768.000000	768.000000	768.000000	768.000000	768.000000
mean	3.845052	120.894531	69.105469	20.536458	79.799479	31.992578	0.471876	33.240885	0.348958
std	3.369578	31.972618	19.355807	15.952218	115.244002	7.884160	0.331329	11.760232	0.476951
min	0.000000	0.000000	0.000000	0.000000	0.000000	0.000000	0.078000	21.000000	0.000000
25%	1.000000	99.000000	62.000000	0.000000	0.000000	27.300000	0.243750	24.000000	0.000000
50%	3.000000	117.000000	72.000000	23.000000	30.500000	32.000000	0.372500	29.000000	0.000000
75%	6.000000	140.250000	80.000000	32.000000	127.250000	36.600000	0.626250	41.000000	1.000000
max	17.000000	199.000000	122.000000	99.000000	846.000000	67.100000	2.420000	81.000000	1.000000

# 数据形状
diabetes_data.shape

(768, 9)

# 查看标签分布
print(diabetes_data.Outcome.value_counts())
# 使用柱状图的方式画出标签个数统计
p=diabetes_data.Outcome.value_counts().plot(kind="bar")
plt.show()

0    500
1    268
Name: Outcome, dtype: int64

# 可视化数据分布
p=sns.pairplot(diabetes_data, hue = 'Outcome')
plt.show()

在这里插入图片描述

这里画的图主要是两种类型，直方图和散点图。单一特征对比的时候用的是直方图，不同特征对比的时候用的是散点图，显示两个特征的之间的关系。观察数据分布我们可以发现一些异常值，比如Glucose葡萄糖，BloodPressure血压，SkinThickness皮肤厚度，Insulin胰岛素，BMI身体质量指数这些特征应该是不可能出现0值的。

# 把葡萄糖，血压，皮肤厚度，胰岛素，身体质量指数中的0替换为nan
colume = ['Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI']
diabetes_data[colume] = diabetes_data[colume].replace(0,np.nan)

# pip install missingno
import missingno as msno
p=msno.bar(diabetes_data)
plt.show()

在这里插入图片描述

# 设定阀值
thresh_count = diabetes_data.shape[0]*0.8
# 若某一列数据缺失的数量超过20%就会被删除
diabetes_data = diabetes_data.dropna(thresh=thresh_count, axis=1)

p=msno.bar(diabetes_data)
plt.show()

# 导入插补库
from sklearn.preprocessing import Imputer 
# 对数值型变量的缺失值，我们采用均值插补的方法来填充缺失值
imr = Imputer(missing_values='NaN', strategy='mean', axis=0) 
colume =  ['Glucose', 'BloodPressure', 'BMI']
# 进行插补
diabetes_data[colume] = imr.fit_transform(diabetes_data[colume])

p=msno.bar(diabetes_data)
plt.show()

在这里插入图片描述

plt.figure(figsize=(12,10))  
# 画热力图，数值为两个变量之间的相关系数
p=sns.heatmap(diabetes_data.corr(), annot=True) 
plt.show()

# 把数据切分为特征x和标签y
x = diabetes_data.drop("Outcome",axis = 1)
y = diabetes_data.Outcome

from sklearn.model_selection import train_test_split
# 切分数据集，stratify=y表示切分后训练集和测试集中的数据类型的比例跟切分前y中的比例一致
# 比如切分前y中0和1的比例为1:2，切分后y_train和y_test中0和1的比例也都是1:2
x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.3, stratify=y)

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report

LR = LogisticRegression()
LR.fit(x_train,y_train)

predictions = LR.predict(x_test)
print(classification_report(y_test, predictions))

             precision    recall  f1-score   support

          0       0.80      0.93      0.86       150
          1       0.82      0.56      0.66        81

avg / total       0.80      0.80      0.79       231