讯飞大数据竞赛 糖尿病检测

import pandas as pd
import numpy as np
import seaborn as sns

导入数据集

train_data = pd.read_csv("data/train.csv",encoding='gbk')
train_data.head()
编号性别出生年份体重指数糖尿病家族史舒张压口服耐糖量测试胰岛素释放实验肱三头肌皮褶厚度患有糖尿病标识
010199630.1无记录106.03.8187.890.00
120198827.5无记录84.0-1.0000.0014.70
231198836.5无记录85.07.1310.0040.11
341199229.5无记录91.07.0410.000.00
450199842.0叔叔或者姑姑有一方患有糖尿病NaN7.1340.000.01
test_data = pd.read_csv("data/test.csv",encoding='gbk')
test_data.head()
编号性别出生年份体重指数糖尿病家族史舒张压口服耐糖量测试胰岛素释放实验肱三头肌皮褶厚度
010198733.1无记录72.06.58624.162.94
120199820.6叔叔或者姑姑有一方患有糖尿病68.03.8610.000.00
231197942.1无记录98.05.7130.003.53
340199934.6无记录66.04.6840.003.14
450199727.7无记录89.07.94814.652.65

train_data['糖尿病家族史'].unique()
array(['无记录', '叔叔或者姑姑有一方患有糖尿病', '叔叔或姑姑有一方患有糖尿病', '父母有一方患有糖尿病'],
      dtype=object)
train_data['体重指数'].describe()
count    5070.000000
mean       37.986785
std        11.447095
min         0.000000
25%        28.400000
50%        36.550000
75%        47.600000
max        65.900000
Name: 体重指数, dtype: float64
train_data.groupby("患有糖尿病标识")["体重指数"].apply(np.mean)
患有糖尿病标识
0    34.586981
1    43.490393
Name: 体重指数, dtype: float64
train_data.groupby("患有糖尿病标识")["胰岛素释放实验"].apply(np.mean)
患有糖尿病标识
0    3.040032
1    5.853383
Name: 胰岛素释放实验, dtype: float64
train_data.groupby("患有糖尿病标识")["口服耐糖量测试"].apply(np.mean)
患有糖尿病标识
0    5.296785
1    6.124467
Name: 口服耐糖量测试, dtype: float64
train_data.groupby("患有糖尿病标识")["肱三头肌皮褶厚度"].apply(np.mean)
患有糖尿病标识
0     2.588535
1    14.126544
Name: 肱三头肌皮褶厚度, dtype: float64
data1 = train_data[train_data["患有糖尿病标识"] == 1]["肱三头肌皮褶厚度"]
data2 = train_data[train_data["患有糖尿病标识"] == 0]["肱三头肌皮褶厚度"]
ax1 = sns.kdeplot(data1.to_numpy(),shade=True,color="r")
ax2 = sns.kdeplot(data2.to_numpy(),shade=True,color="g")
ax3 = sns.kdeplot(train_data["肱三头肌皮褶厚度"].to_numpy(),shade=True,color="y")

在这里插入图片描述

data1 = train_data[train_data["患有糖尿病标识"] == 1]["体重指数"]
data2 = train_data[train_data["患有糖尿病标识"] == 0]["体重指数"]
ax1 = sns.kdeplot(data1.to_numpy(),shade=True,color="r")
ax2 = sns.kdeplot(data2.to_numpy(),shade=True,color="g")
ax3 = sns.kdeplot(train_data["体重指数"].to_numpy(),shade=True,color="y")

在这里插入图片描述

data1 = train_data[train_data["患有糖尿病标识"] == 1]["口服耐糖量测试"]
data2 = train_data[train_data["患有糖尿病标识"] == 0]["口服耐糖量测试"]
ax1 = sns.kdeplot(data1.to_numpy(),shade=True,color="r")
ax2 = sns.kdeplot(data2.to_numpy(),shade=True,color="g")
ax3 = sns.kdeplot(train_data["口服耐糖量测试"].to_numpy(),shade=True,color="y")

在这里插入图片描述

data1 = train_data[train_data["患有糖尿病标识"] == 1]["胰岛素释放实验"]
data2 = train_data[train_data["患有糖尿病标识"] == 0]["胰岛素释放实验"]
ax1 = sns.kdeplot(data1.to_numpy(),shade=True,color="r")
ax2 = sns.kdeplot(data2.to_numpy(),shade=True,color="g")

在这里插入图片描述

data1 = train_data[train_data["患有糖尿病标识"] == 1]["出生年份"]
data2 = train_data[train_data["患有糖尿病标识"] == 0]["出生年份"]
ax1 = sns.kdeplot(data1.to_numpy(),shade=True,color="r")
ax2 = sns.kdeplot(data2.to_numpy(),shade=True,color="g")

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值