机器学习:心血管疾病数据分析

本文介绍了如何运用Python的Pandas和seaborn库对一个包含大约8万条数据的心血管疾病数据集进行分析。通过代码注释详细展示了数据筛选、频率统计、百分比计算、平均值和中位数分析、数据清理、皮尔逊相关性分析以及绘制小提琴图和直方图等统计图表的过程。
摘要由CSDN通过智能技术生成

2019-5-22
python3.6
所有包为5月15日之前的最新包

Pandas,seaborn 的一些图表操作

数据集特征
在这里插入图片描述
在这里插入图片描述
大概有8W条数据左右。

对表的操作以及解决的问题都在代码中进行了注释

主要的操作有,筛选数据,频率,百分比,平均数,中位数,数据清除,皮尔逊相关性系数矩阵,小提琴图,直方统计分布图等

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib
import matplotlib.pyplot as plt
import matplotlib.ticker
from matplotlib import rcParams
import warnings
warnings.filterwarnings('ignore')

pd.set_option('expand_frame_repr', True)   # true表示可以换行显示
pd.set_option('display.max_columns', None)
#显示所有行
pd.set_option('display.max_rows', None)
pd.set_option('max_colwidth', 100)

sns.set()
sns.set_context(
    "notebook",
    font_scale=1.5,
    rc={
        "figure.figsize": (11, 8),
        "axes.titlesize": 18
    }
)
rcParams['figure.figsize'] = 11, 8

# https://labfile.oss.aliyuncs.com/courses/1283/telecom_churn.cs
df = pd.read_csv(
    'D:/pycharm_pro/imageinfo/CVD_analysis/mlbootcamp5_train.csv', sep=';')
print(df.head())

# 数据集中有多少男性和女性?由于 gender 特征没有说明男女,你需要通过分析身高计算得出。
dup = df.groupby('gender').size()
bodyhigh = df.groupby('gender')['height'].mean()
# print(bodyhigh)
# print(dup)

# 数据集中男性和女性,哪个群体饮酒的频次更高?
rate = df.groupby('gender')['alco'].mean()
# print(rate)


# 数据集中男性和女性吸烟者所占百分比的差值
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值