UCI——心脏病数据集分析报告

写在前面:研一的机器学习课程需要针对UCI的一个数据集进行分析。所以就有了这篇文章。也是第一次好好学习机器学习了。

[P5]

1 前期准备

本次实验基于spyder,python3.7,数据集 heart.csv

1.1 安装数据分析+可视化第三方工具包

  1. 首先打开anaconda prompt,然后输入下面一行代码即可。
pip install numpy pandas matplotlib seaborn wheel pandas_profiling jupyter notebook -i https://pypi.tuna.tsinghua.edu.cn/simple
  1. 介绍一下每一个库
  • Numpy:是python语言的一个扩展程序库;支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。
  • pandas:是python语言的一个扩展程序库;用于数据分析;可以从各种格式文献比如CSV、JSON、SQL、Microsoft Excel导入数据。
  • matploylib:是python在绘图领域最常用的套件。它能让使用者很轻松地将数据图形化,并且提供多样化的输出格式。
  • seaborn:是基于matplotlib的图形可视化python包。它可以让用户能够做出各种有吸引力的统计图表。
  • wheel:取代了之前的打包格式.egg文件。
  1. 最后是清华大学的镜像网站,是为了加速下载的。https://pypi.tuna.tsinghua.edu.cn/simple

1.2 安装辅助工具包

pip install graphviz pydotplus -i https://pypi.tuna.tsighua.edu.cn/simple

将graphviz的bin目录加在环境变量PATH中。
在这里插入图片描述

1.3 安装机器学习第三方工具包

pip install scikit-learn -i https://pypi.tunasinghua.edu.cn/simple

1.4 安装机器学习可解释性第三方工具包

pip install pdpbox eli5 -i https://pypi.tunasinghua.edu.cn/simple

2 对于数据集进行导入、查看及简单分析

2.1 代码及注释

import pandas as pd
df = pd.read_csv("heart.csv")
print(df.head())
import pandas as pd
# 导入pandas库,用于读取数据

df = pd.read_csv("heart.csv")
# read_csv函数,可以读取csv文件,括号内的csv文件是在当前.py文件同一目录下

print(df.head())
# df.head() 输出前5行的数据
# df.tail() 输出最后5行的数据

下面是输出结果:
在这里插入图片描述

2.2 简单分析属性的相关系数关系

corr()方法:返回数据类型的相关系数矩阵(每两个类型之间的相关性)

# data是一个DataFrame类型的数据
data.corr() #相关系数矩阵,即给出了任意两个变量之间的相关系数
data.corr()[u’好’] #只显示“好”与其他感情色彩的相关系数
data[u’好’].corr(data[u’哭’]) #两个感情色彩的相关系数
  • 2
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,以下是使用Python进行UCI心脏病数据集分析的步骤: 1. 下载数据集:您可以在UCI Machine Learning Repository上找到Heart Disease数据集,下载数据集并将其保存到您的本地文件夹中。 2. 导入库和数据:在Python中,您需要导入pandas、numpy和matplotlib库来读取和分析数据集。使用pandas的read_csv()函数将数据集读取到pandas DataFrame中。 ```python import pandas as pd import numpy as np import matplotlib.pyplot as plt heart_data = pd.read_csv('heart.csv') ``` 3. 数据清理和转换:在进行数据分析之前,您需要对数据进行清理和转换。这可能包括删除缺失值、转换数据类型和标准化数据等操作。 ```python # 删除缺失值所在的行 heart_data.dropna(inplace=True) # 转换数据类型为整数 heart_data = heart_data.astype(int) # 标准化数据 from sklearn.preprocessing import StandardScaler scaler = StandardScaler() heart_data = pd.DataFrame(scaler.fit_transform(heart_data), columns=heart_data.columns) ``` 4. 数据分析:您可以使用pandas和matplotlib库来进行数据分析和可视化。例如,您可以使用pandas的describe()函数来获取数据集的统计信息,使用matplotlib的hist()函数来绘制数据集的直方图,使用pandas的corr()函数来计算特征之间的相关性,并使用matplotlib的heatmap()函数来可视化相关性矩阵。 ```python # 获取数据集的统计信息 heart_data.describe() # 绘制数据集的直方图 heart_data.hist(figsize=(12, 12), bins=20) # 计算特征之间的相关性 corr_matrix = heart_data.corr() # 可视化相关性矩阵 plt.figure(figsize=(12, 12)) plt.title('Correlation Matrix') sns.heatmap(corr_matrix, annot=True, cmap='coolwarm') ``` 希望这些指导对您有所帮助!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值