心脏病个人指数数据集数据处理
摘要:
本论文包含了对心脏病个人指数数据集的概述,数据预处理,数据可视化以及数据分析还有相关代码,整体论文实现以下内容:数据预处理,包括异常数据处理,缺省数据处理,重复值处理,数据标准化;数据可视化,包括受访人员性别比例可视化,种族分布可视化,睡眠时长可视化,心理健康和身体健康情况可视化;数据分析,包括年龄与心脏病的关系,抽烟,喝酒与心脏病的关系,BMI值与心脏病的关系,也包括了这些功能实现的操作步骤以及处理过程和详细代码。本论文所涉及的数据预处理,数据分析仅以此数据集为准,所有处理方法,结果以及结论仅个人观点。
目 录
心脏病个人指数数据集数据处理
1. 数据集概述
该数据集来自美国疾病控制与预防中心,是行为风险因素监测系统(BRFSS)的主要组成部分,该系统每年进行电话调查,收集美国居民健康状况的数据。正如美国疾病控制与预防中心所描述的那样:“BRFSS成立于1984年,在15个州建立,现在在所有50个州以及哥伦比亚特区和3个美国领地收集数据。BRFSS每年完成40多万名成年人的访谈,使其成为世界上最大的连续进行的健康调查系统。
最近的数据集(截至2022年2月15日)包含了2020年的数据。它由401,958行和279列组成。大部分栏目都是针对受访者的健康状况的问题,如“你走路或爬楼梯有严重困难吗?”或“你一生中吸过至少100支烟吗?”。
背景描述
据美国疾病控制与预防中心的数据,心脏病是美国大多数种族(非裔美国人、美国印第安人、阿拉斯加原住民和白人)的主要死因之一。大约一半的美国人(47%)至少有三种导致心脏病的主要风险因素中的一种:高血压、高胆固醇和吸烟。其他关键指标包括糖尿病状况、肥胖(BMI高)、缺乏体育活动或饮酒过多。发现和预防对心脏病有最大影响的因素在医疗保健中非常重要。反过来,计算技术的发展使得机器学习方法的应用能够从数据中检测出“模式”,从而预测病人的病情。
数据说明
该数据集包含18个变量(9个布尔值,5个字符串和4个小数点)。在机器学习项目中,“HeartDisease ”可以用作探究变量,但请注意,类是严重失衡的。
数据名称 | 数据说明 | |
1 | HeartDisease | -曾报告患有冠心病(CHD)或心肌梗死(MI)的受访者 |
2 | BMI |
-身体质量指数(BMI) |
3 | Smoking | -你一生中至少抽过100支烟吗? |
4 | AlcoholDrinking | -重度饮酒者(成年男性每周饮酒超过14杯,成年女性每周饮酒超过7杯 |
5 | Stroke |
-中风 |
6 | PhysicalHealth | -现在想想你的身体健康,包括身体疾病和受伤,在过去的30天里,有多少天你的身体健康不好?(0-30天) |
7 | MentalHealth |
-心理健康,在过去的30天里有多少天你的心理健康不好?(0-30天) |
8 | DiffWalking | -你走路或爬楼梯有严重困难吗? |
9 | Sex | -性别 |
10 | AgeCategory |
-年龄范畴 |
11 | Race | -种族/民族 |
12 | Diabetic | -是否有糖尿病? |
13 | PhysicalActivity | -过去30天里从事体育活动或锻炼的成年人 |
14 | GenHealth | -你是否认为你的健康状况? |
15 | SleepTime |
-平均来说,你在24小时内的睡眠时间是多少小时? |
16 | Asthma | -是否得有哮喘? |
17 | KidneyDisease |
-不包括肾结石、膀胱感染或尿失禁,你是否曾被告知有肾病? |
18 | SkinCancer | -是否得过皮肤癌? |
表1-1 数据集数据说明
原始数据集部分数据如下: