此处以Pima印第安人数据集为例,根据诊断措施预测糖尿病的发病。
一、数据集简介
1、该数据集最初来自国家糖尿病/消化/肾脏疾病研究所。数据集的目标是基于数据集中包含的某些诊断测量来诊断性的预测 患者是否患有糖尿病。
2、从较大的数据库中选择这些实例有几个约束条件。尤其是,这里的所有患者都是Pima印第安至少21岁的女性。
3、数据集由多个医学预测变量和一个目标变量组成Outcome。预测变量包括患者的怀孕次数、BMI、胰岛素水平、年龄等。
二、导入数据集
#导入库
import pandas as pd
#导入CSV文件
filename = "pima_data.csv"
name = ['preg','plas','pres','skin','test','mass','pedi','age','class']
data = pd.read_csv(filename,names=name)
数据属性:
【1】Preg:怀孕次数
【2】Plas:葡萄糖
【3】Pres:血压 (mm Hg)
【4】Skin:皮层厚度 (mm)
【5】Test:胰岛素 2小时血清胰岛素(mu U / ml
【6】Mass:体重指数 (体重/身高)^2
【7】Pedi:糖尿病谱系功能
【8】Age:年龄 (岁)
【9】Class:类标变量 (0或1)