Dataset:heart disease心脏病数据集的简介、下载、使用方法之详细攻略
目录
heart disease心脏病数据集的简介
根据美国CDC(疾病预防控制中心)的说法,心脏病是美国大多数种族(非裔美国人、美国印第安人、阿拉斯加原住民和白人)死亡的主要原因之一。大约一半的美国人(47%)至少有三种主要的心脏病风险因素中的一种:高血压、高胆固醇和吸烟。其他关键指标包括糖尿病、肥胖(BMI高)、没有进行足够的体育活动或饮酒过量。检测和预防对心脏病影响最大的因素在医疗保健中非常重要。反过来,计算技术的发展使得机器学习方法的应用能够从数据中检测出“模式”,从而预测患者的病情,同时指出哪些变量对心脏病的可能性有显著影响。
最初,数据集来自美国疾病控制与预防中心,是行为风险因素监测系统(BRFSS)的主要组成部分,该系统每年进行电话调查,以收集美国居民的健康状况数据。正如CDC所描述的那样:“BRFSS成立于1984年,有15个州,现在收集所有50 个州以及哥伦比亚特区和三个美国领土的数据。BRFSS每年完成超过40万次成人访谈,使其成为世界上最大的持续进行的健康调查系统。最近的数据集(截至2022年2月15日)包括2020年的数据。它包含401958行和279列。绝大多数专栏都是询问受访者健康状况的问题,比如“你走路或爬楼梯有严重困难吗?”或者“你一生中吸过至少100支烟吗?”【注:5包= 100支香烟】”。在这个数据集中,我注意到许多不同的因素(问题)直接或间接影响心脏病,所以我决定从它中选择最相关的变量,并进行一些清理,以便它可以用于机器学习项目。
如上所述,原来将近300个变量的数据集被缩减到只有大约20个变量。除了经典的EDA之外,这个数据集还可以用于应用一系列机器学习方法,最显著的是分类器模型(逻辑回归、SVM、随机森林等)。应该将变量“心脏病”作为一个二元—受访者是否患有心脏病。但是请注意,类是不平衡的,所以经典的模型应用程序方法是不可取的。修正权重/欠采样应该会产生更好的结果。
heart disease数据集是2020年CDC对40万成年人健康状况的年度调查数据。
相关地址:Personal Key Indicators of Heart Disease | Kaggle
1、数据集简介
英文 | 中文 | 备注 |
HeartDisease | 是否为曾报告患有冠心病(CHD)或心肌梗死(MI)的受访者 | yes/no {'Yes':1,'No':0} |
BMI | 体重指数(BMI) | |
Smoking | 你一生中吸过至少100支烟吗?【注:5包= 100支香烟】 | yes/no |
AlcoholDrinking | 重度饮酒者(成年男性每周饮酒超过14杯,成年女性每周饮酒超过7杯 | yes/no |
Stroke | (曾经告诉过)有人告诉过你中风吗? | yes/no |
PhysicalHealth | 现在想想你的身体健康,包括身体疾病和受伤,在过去的30天里有多少天你的身体健康状况不好?(0~30天) | |
MentalHealth | 想想你的心理健康,在过去的30天里,有多少天你的心理健康状况不好?(0~30天) | |
DiffWalking | 你走路或爬楼梯有严重困难吗? | yes/no |
Sex | 你是男性还是女性? | Male/Female {'Male':1,'Female':0} |
AgeCategory | Fourteen-level年龄范畴 | 13个阶段,18~24,25~29,30~34 ,35~39,40~44,45~49,50~54,55~59,60~64,65~69,70~74,75~79,80 or older ; {'18-24':1,'25-29':2,'30-34':3,'35-39':4,'40-44':5,'45-49':6,'50-54':7,'55-59':8,'60-64':9,'65-69':10,'70-74':11,'75-79':12,'80 or older':13} |
Race | 种族 | 6个类别,American Indi an/Alaskan Native,Asian,Black,White,Hispanic,other {'American Indian/Alaskan Native':1,'Asian':2,'Black':3,'White':4,'Hispanic':5,'Other':6} |
Diabetic | (曾经告诉过)有人告诉过你有糖尿病吗? | 4个选项,No、"No,borderline diabetes"、Yes、"Yes (during pregnancy)" {'No':1,'No, borderline diabetes':2,'Yes':3,'Yes (during pregnancy)':4} |
PhysicalActivity | 在过去30天内,报告在正常工作以外进行体育活动或锻炼的成年人 | yes/no |
GenHealth | 总的来说你的健康状况是… | 5个选项,Excellert、Fair、Good、Poor、very good {'Poor':1,'Fair':2,'Good':3,'Very good':4,'Excellent':5} |
SleepTime | 平均来说,你在24小时内睡了多少个小时? | 1~24 |
Asthma | (曾经告诉过)有人告诉过你有哮喘吗? | yes/no |
KidneyDisease | 不包括肾结石、膀胱感染或尿失禁,你曾被告知有肾脏疾病吗? | yes/no |
SkinCancer | (曾经告诉过)有人告诉过你有皮肤癌吗? | yes/no |
heart disease心脏病数据集的下载
数据集下载地址:
https://www.kaggle.com/datasets/kamilpytlak/personal-key-indicators-of-heart-disease
heart disease心脏病数据集的使用方法
相关文章:DataScience&ML:基于heart disease心脏病分类预测数据集利用决策数算法基于graphviz/eli5/pdpbox/shap库实现模型可解释性(全局/部分/局部解释)之详细攻略