1 前言
🚩 基于大数据的心血管疾病分析
🥇学长这里给一个题目综合评分(每项满分5分)
- 难度系数:3分
- 工作量:3分
- 创新点:4分
🧿 选题指导, 项目分享:见文末
1 课题背景
本项目的任务是利用患者的检查结果预测心血管疾病(CVD)的存在与否。
2 数据处理
数据集包括年龄、性别、收缩压、舒张压等12个特征的患者数据记录7万份。
当患者有心血管疾病时,目标类“cardio”等于1,如果患者健康,则为0。
数据描述
有三种类型的输入特征:
- Objective: 客观事实;
- Examination: 体检检查结果;
- Subjective: 病人提供的信息
数据信息概览
import numpy as np
import pandas as pd
import seaborn as sns
from matplotlib import pyplot as plt
import os
df.head()
变量分析
df.info()
所有特征都是数字,12个整数和1个小数(权值)。第二列告诉我们数据集有多大,每个字段有多少非空值。
我们可以使用’ describe() ‘来显示每个属性的样本统计信息,比如’ min ‘、’ max ‘、’ mean ‘、’ std ':
评论
df.describe()
年龄以天为单位,身高以厘米为单位。
让我们看看数值变量以及它们是如何在目标类中分布的。
例如,什么年龄患有心血管疾病的人数超过没有心血管疾病的人数?
3 数据可视化
from matplotlib import rcParams
rcParams['figure.figsize'] = 11, 8
df['years'] = (df['age'] / 365)<