机器学习入门(一)——数据理解

此处以Pima印第安人数据集为例,根据诊断措施预测糖尿病的发病。

一、数据集简介

1、该数据集最初来自国家糖尿病/消化/肾脏疾病研究所。数据集的目标是基于数据集中包含的某些诊断测量来诊断性的预测 患者是否患有糖尿病。
2、从较大的数据库中选择这些实例有几个约束条件。尤其是,这里的所有患者都是Pima印第安至少21岁的女性。
3、数据集由多个医学预测变量和一个目标变量组成Outcome。预测变量包括患者的怀孕次数、BMI、胰岛素水平、年龄等。

二、导入数据集

#导入库
import pandas as pd

#导入CSV文件
filename = "pima_data.csv"
name = ['preg','plas','pres','skin','test','mass','pedi','age','class']
data = pd.read_csv(filename,names=name)

数据属性:

【1】Preg:怀孕次数
【2】Plas:葡萄糖
【3】Pres:血压 (mm Hg)
【4】Skin:皮层厚度 (mm)
【5】Test:胰岛素 2小时血清胰岛素(mu U / ml
【6】Mass:体重指数 (体重/身高)^2
【7】Pedi:糖尿病谱系功能
【8】Age:年龄 (岁)
【9】Class:类标变量 (0或1)

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值