基于python的心脏病个人指数数据集数据处理——结课论文

前言:此论文是小赵的python数据分析与应用的结课作业未上传论文涉及的所有数据集,本论文所涉及的数据预处理,数据分析和可视化仅以这些数据集为准,所有处理方法,结果以及结论仅个人观点。

心脏病个人指数数据集数据处理

摘要:

    本论文包含了对心脏病个人指数数据集的概述,数据预处理,数据可视化以及数据分析还有相关代码,整体论文实现以下内容:数据预处理,包括异常数据处理,缺省数据处理,重复值处理,数据标准化;数据可视化,包括受访人员性别比例可视化,种族分布可视化,睡眠时长可视化,心理健康和身体健康情况可视化;数据分析,包括年龄与心脏病的关系,抽烟,喝酒与心脏病的关系,BMI值与心脏病的关系,也包括了这些功能实现的操作步骤以及处理过程和详细代码。本论文所涉及的数据预处理,数据分析仅以此数据集为准,所有处理方法,结果以及结论仅个人观点。

目  录

1. 数据集概述

2. 数据预处理

2.1 缺省数据处理. 

2.2 重复值处理. 

2.3 异常数据处理. 

2.4 数据标准化. 

3. 数据可视化

3.1 受访人员性别分布可视化. 

3.2 种族比例可视化. 

3.3 睡眠时长可视化. 

3.4 心理健康和身体健康情况可视化. 

4. 数据分析

4.1 年龄与心脏病的关系. 

4.2 抽烟,重度饮酒与心脏病的关系. 

4.3 BMI值与心脏病患者的关系. 

5. 代码.

数据预处理

数据可视化

数据分析


心脏病个人指数数据集数据处理

1. 数据集概述

该数据集来自美国疾病控制与预防中心,是行为风险因素监测系统(BRFSS)的主要组成部分,该系统每年进行电话调查,收集美国居民健康状况的数据。正如美国疾病控制与预防中心所描述的那样:“BRFSS成立于1984年,在15个州建立,现在在所有50个州以及哥伦比亚特区和3个美国领地收集数据。BRFSS每年完成40多万名成年人的访谈,使其成为世界上最大的连续进行的健康调查系统。

最近的数据集(截至2022年2月15日)包含了2020年的数据。它由401,958行和279列组成。大部分栏目都是针对受访者的健康状况的问题,如“你走路或爬楼梯有严重困难吗?”或“你一生中吸过至少100支烟吗?”。

背景描述

据美国疾病控制与预防中心的数据,心脏病是美国大多数种族(非裔美国人、美国印第安人、阿拉斯加原住民和白人)的主要死因之一。大约一半的美国人(47%)至少有三种导致心脏病的主要风险因素中的一种:高血压、高胆固醇和吸烟。其他关键指标包括糖尿病状况、肥胖(BMI高)、缺乏体育活动或饮酒过多。发现和预防对心脏病有最大影响的因素在医疗保健中非常重要。反过来,计算技术的发展使得机器学习方法的应用能够从数据中检测出“模式”,从而预测病人的病情。

数据说明

该数据集包含18个变量(9个布尔值,5个字符串和4个小数点)。在机器学习项目中,“HeartDisease ”可以用作探究变量,但请注意,类是严重失衡的。

数据名称 数据说明
1 HeartDisease -曾报告患有冠心病(CHD)或心肌梗死(MI)的受访者
2

BMI

-身体质量指数(BMI)
3 Smoking -你一生中至少抽过100支烟吗?
4 AlcoholDrinking -重度饮酒者(成年男性每周饮酒超过14杯,成年女性每周饮酒超过7杯
5

Stroke

-中风
6 PhysicalHealth -现在想想你的身体健康,包括身体疾病和受伤,在过去的30天里,有多少天你的身体健康不好?(0-30天)
7

MentalHealth

-心理健康,在过去的30天里有多少天你的心理健康不好?(0-30天)
8 DiffWalking -你走路或爬楼梯有严重困难吗?
9 Sex -性别
10

AgeCategory

-年龄范畴
11 Race -种族/民族
12 Diabetic -是否有糖尿病?
13 PhysicalActivity -过去30天里从事体育活动或锻炼的成年人
14 GenHealth -你是否认为你的健康状况?
15

SleepTime

-平均来说,你在24小时内的睡眠时间是多少小时?
16 Asthma -是否得有哮喘?
17

KidneyDisease

-不包括肾结石、膀胱感染或尿失禁,你是否曾被告知有肾病?
18 SkinCancer -是否得过皮肤癌?

表1-1 数据集数据说明

原始数据集部分数据如下:

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值