基于python的心脏病个人指数数据集数据处理——结课论文

m0_69203864

已于 2023-09-23 01:25:09 修改

阅读量2.9k

点赞数 7

文章标签： python 数据分析数据可视化

于 2023-09-23 01:15:00 首次发布

本文链接：https://blog.csdn.net/m0_69203864/article/details/133191216

版权

前言:此论文是小赵的python数据分析与应用的结课作业，未上传论文涉及的所有数据集，本论文所涉及的数据预处理，数据分析和可视化仅以这些数据集为准，所有处理方法，结果以及结论仅个人观点。

心脏病个人指数数据集数据处理

摘要：

本论文包含了对心脏病个人指数数据集的概述，数据预处理，数据可视化以及数据分析还有相关代码，整体论文实现以下内容：数据预处理，包括异常数据处理，缺省数据处理，重复值处理，数据标准化；数据可视化，包括受访人员性别比例可视化，种族分布可视化，睡眠时长可视化，心理健康和身体健康情况可视化；数据分析，包括年龄与心脏病的关系，抽烟，喝酒与心脏病的关系，BMI值与心脏病的关系，也包括了这些功能实现的操作步骤以及处理过程和详细代码。本论文所涉及的数据预处理，数据分析仅以此数据集为准，所有处理方法，结果以及结论仅个人观点。

心脏病个人指数数据集数据处理

1. 数据集概述

该数据集来自美国疾病控制与预防中心，是行为风险因素监测系统(BRFSS)的主要组成部分，该系统每年进行电话调查，收集美国居民健康状况的数据。正如美国疾病控制与预防中心所描述的那样:“BRFSS成立于1984年，在15个州建立，现在在所有50个州以及哥伦比亚特区和3个美国领地收集数据。BRFSS每年完成40多万名成年人的访谈，使其成为世界上最大的连续进行的健康调查系统。

最近的数据集(截至2022年2月15日)包含了2020年的数据。它由401,958行和279列组成。大部分栏目都是针对受访者的健康状况的问题，如“你走路或爬楼梯有严重困难吗?”或“你一生中吸过至少100支烟吗?”。

背景描述

据美国疾病控制与预防中心的数据，心脏病是美国大多数种族(非裔美国人、美国印第安人、阿拉斯加原住民和白人)的主要死因之一。大约一半的美国人(47%)至少有三种导致心脏病的主要风险因素中的一种:高血压、高胆固醇和吸烟。其他关键指标包括糖尿病状况、肥胖(BMI高)、缺乏体育活动或饮酒过多。发现和预防对心脏病有最大影响的因素在医疗保健中非常重要。反过来，计算技术的发展使得机器学习方法的应用能够从数据中检测出“模式”，从而预测病人的病情。

数据说明

该数据集包含18个变量(9个布尔值，5个字符串和4个小数点)。在机器学习项目中，“HeartDisease ”可以用作探究变量，但请注意，类是严重失衡的。

	数据名称	数据说明
1	HeartDisease	-曾报告患有冠心病(CHD)或心肌梗死(MI)的受访者
2	BMI	-身体质量指数(BMI)
3	Smoking	-你一生中至少抽过100支烟吗?
4	AlcoholDrinking	-重度饮酒者(成年男性每周饮酒超过14杯，成年女性每周饮酒超过7杯
5	Stroke	-中风
6	PhysicalHealth	-现在想想你的身体健康，包括身体疾病和受伤，在过去的30天里，有多少天你的身体健康不好?(0-30天)
7	MentalHealth	-心理健康，在过去的30天里有多少天你的心理健康不好?(0-30天)
8	DiffWalking	-你走路或爬楼梯有严重困难吗?
9	Sex	-性别
10	AgeCategory	-年龄范畴
11	Race	-种族/民族
12	Diabetic	-是否有糖尿病?
13	PhysicalActivity	-过去30天里从事体育活动或锻炼的成年人
14	GenHealth	-你是否认为你的健康状况？
15	SleepTime	-平均来说，你在24小时内的睡眠时间是多少小时?
16	Asthma	-是否得有哮喘?
17	KidneyDisease	-不包括肾结石、膀胱感染或尿失禁，你是否曾被告知有肾病?
18	SkinCancer	-是否得过皮肤癌?