第三届Python数据分析职业技能比赛A题
Hello World!
大家好!这里是一名练习时长两年半的大数据专业练习生,这一篇也是第一篇blog,来的实在是晚了些。平时没有记录的习惯,自然少了些分享的欲望。对于这次学校在期末举办的水友赛,由于种种原因没有呈交最后的论文,以至于在 “清灰” 时对这个文件夹里面的,几乎快无法辨认的代码感到非常惊讶。
回望那段被八篇结课论文追到美国人作息的生活,依然硬挤出来这份不那么完美的作品,相较于放假后我狂刷b站不理会老贾头的潇洒,着实显得可贵。
于是!我决定赶紧动一动我这刚勤劳一会就会僵硬滴小手,把完整的赛题、思路、代码放上来,供大家娱乐。
搜到这篇的小朋友们要继续加油哦 别怕,有我在~(气泡音
赛题
竞赛背景
心血管疾病 (CVD) 是全球第一大死因,估计每年夺走 1790 1790 1790万人的生命,占全球所有死亡人数的 31 % 31\% 31%。五分之四的心血管疾病死亡是由心脏病发作和中风引起的,其中三分之一的死亡过早发生在 70 70 70 岁以下的人群中。心力衰竭是由 CVD 引起的常见事件,该数据集包含 11 11 11 个可用于分析可能的心脏病的特征。患有心血管疾病或处于高心血管风险(由于存在一种或多种风险因素,如高血压、糖尿病、高脂血症或已确诊的疾病)的人需要早期检测和管理。
字段说明
字段 | 解释 |
---|---|
Age | 患者年龄 |
性别 | 患者的性别[M:男,F:女] |
ChestPainType | 胸痛类型 [TA:典型心绞痛,ATA:非典型心绞痛,NAP:非心绞痛,ASY:无症状] |
RestingBP | 静息血压 [mm Hg] |
Cholesterol | 血清胆固醇 [mg/dl] |
FastingBS | 空腹血糖 [1:如果 FastingBS > 120 mg/dl,0:其它] |
RestingECG | 静息心电图结果 [正常:正常,ST:有 ST-T 波异常(T 波倒置和/或 ST 抬高或压低 > 0.05 mV),LVH:根据埃斯蒂斯标准显示可能或明确的左心室肥大] |
MaxHR | 达到的最大心率 [60 到 202 之间的数值] |
ExerciseAngina | 运动诱发的心绞痛 [Y:是,N:否] |
Oldpeak | oldpeak = ST [在抑郁症中测量的数值] |
ST_Slope | 运动 ST 段的坡度[Up:向上倾斜,Flat:平坦,Down:向下倾斜] |
HeartDisease | 输出类[1:心脏病,0:正常] |
考核目标
- 数据的预处理;
- 数据的可视化;
- 分析可能导致心脏病的原因,并提出合理建议。
任务
根据所给的数据集“A 题.csv”提取码qwer, 完成以下任务:
任务一 数据预处理
- 将 CSV 文件的数据先按照 Age 进行排序,然后取出前100 条数据,并命名为“task1_1.csv”保存在结果文件夹中;
- 针对取出的前 100 条数据,统计出每个年龄的HeartDisease 为 1 的条数;
- 统计出患有心脏病的人群中,各类型 ChestPainType 所占的比例,并写成百分比的格式以及四舍五入保留两位小数
任务二 数据可视化
- 采用合适的可视化方法展示 HeartDisease 与 Age 之间的关系
- 采用合适的可视化方法展示对于 HeartDisease 取不同值,RestingBP 和 Cholesterol 的
大小关系 - 采用合适的可视化方法展示 Sex 和 Cholesterol 对 HeartDisease 人数的影响
任务三 数据分析
- 选取适当的方法分析哪些指标的异常会导致心脏病
- 针对可能导致心脏病的指标,提出预防心脏病的合理建议
任务一思路
老三样