UCI 心脏病数据集Heart Disease Data Set

在UCI机器学习库中,Heart Disease Data Set一共包含4个关于心脏病诊断的数据库。
其中数据分别来源自:

  1. Cleveland Clinic Foundation (cleveland.data)
  2. Hungarian Institute of Cardiology, Budapest (hungarian.data)
  3. V.A. Medical Center, Long Beach, CA (long-beach-va.data)
  4. University Hospital, Zurich, Switzerland (switzerland.data)

每个数据库都包含有76个属性,但是所有已发布的实验都只引用了其中14个属性的子集。特别是,克利夫兰数据库(cleveland.data)是迄今为止ML研究人员使用的唯一数据库。

GitHub链接中有两个数据集。

其中,processed.cleveland.csv是从UCI Heart Disease Data Set 官网下载的数据集

数据属性说明:
1)age-年龄
2)sex-性别 (1 =男性; 0 =女性)
3)cp-胸痛类型(4个值,值1:典型的心绞痛,值2:非典型心绞痛,值3:非心绞痛,值4:无症状)
4)trestbps-患者入院时的静息血压(单位:mm Hg)
5)chol-血清胆固醇水平(单位:mg / dl)
6)fbs-空腹血糖(> 120 mg / dl ,1=真;0=假)
7)restecg-静息心电图结果(值0:正常,值1:有ST-T波异常(T波倒置和/或ST升高或降低> 0.05 mV),值2:根据Estes的标准显示可能或确定的左心室肥大)
8)thalach-达到的最大心率
9)exang-运动引起的心绞痛(1 =是; 0 =否)
10 )oldpeak-运动相对于休息引起的ST压低
11)slope-最高运动ST段的斜率,(值1:上坡,值2:平坦,值3 :下坡)
12)ca-萤光显色的主要血管数目(0-3)
13)thal-一种称为地中海贫血的血液疾病(3=正常;6=固定缺陷;7=可逆缺陷)
14)target- 患者是否患有心脏病。它是从0(不存在)到4的整数值。 Cleveland 数据库的实验集中在试图区分存在(值1、2、3、4)和不存在(值0)。

另一个UCI Heart Disease Dataset.csv是对官网数据集稍做处理后的数据集
1-12相同
13)thal-一种称为地中海贫血的血液疾病(0 =正常;1 =固定缺陷;2 =可逆缺陷)
14)target- 患者是否患有心脏病。存在(值1)和不存在(值0)。

处理内容:
官网原始数据集一共有303行, 14列,行索引从0-302
其中ca列有4个缺失值,行索引分别为166,192,287,302
其中thal列有2个缺失值,行索引分别为87,266
去除缺失值后,UCI Heart Disease Dataset数据集[297 rows x 14 columns]
thal指标用0,1,2进行替换
target指标换为存在(值1)和不存在(值0),方便做二分类。
最终数据类型:
在这里插入图片描述

  • 22
    点赞
  • 107
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

函右右

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值