机器学习入门（一）——数据理解

最新推荐文章于 2022-05-20 20:30:01 发布

VIP文章无雨无风

最新推荐文章于 2022-05-20 20:30:01 发布

阅读量432

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_26764565/article/details/104598831

版权

此处以Pima印第安人数据集为例，根据诊断措施预测糖尿病的发病。

一、数据集简介

1、该数据集最初来自国家糖尿病/消化/肾脏疾病研究所。数据集的目标是基于数据集中包含的某些诊断测量来诊断性的预测患者是否患有糖尿病。
2、从较大的数据库中选择这些实例有几个约束条件。尤其是，这里的所有患者都是Pima印第安至少21岁的女性。
3、数据集由多个医学预测变量和一个目标变量组成Outcome。预测变量包括患者的怀孕次数、BMI、胰岛素水平、年龄等。

二、导入数据集

#导入库
import pandas as pd

#导入CSV文件
filename = "pima_data.csv"
name = ['preg','plas','pres','skin','test','mass','pedi','age','class']
data = pd.read_csv(filename,names=name)

数据属性：

【1】Preg：怀孕次数
【2】Plas：葡萄糖
【3】Pres：血压 (mm Hg)
【4】Skin：皮层厚度 (mm)
【5】Test：胰岛素 2小时血清胰岛素（mu U / ml
【6】Mass：体重指数（体重/身高）^2
【7】Pedi：糖尿病谱系功能
【8】Age：年龄（岁）
【9】Class：类标变量（0或1）

最低0.47元/天解锁文章

无雨无风

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
机器学习入门（一）——数据理解

此处以Pima印第安人数据集为例，根据诊断措施预测糖尿病的发病。一、数据集简介1、该数据集最初来自国家糖尿病/消化/肾脏疾病研究所。数据集的目标是基于数据集中包含的某些诊断测量来诊断性的预测患者是否患有糖尿病。2、从较大的数据库中选择这些实例有几个约束条件。尤其是，这里的所有患者都是Pima印第安至少21岁的女性。3、数据集由多个医学预测变量和一个目标变量组成Outcome。预测变量...
复制链接

扫一扫