【R语言】实验四数据分析

最新推荐文章于 2024-12-16 17:00:36 发布

Q_皮不卡秋秋

最新推荐文章于 2024-12-16 17:00:36 发布

阅读量2.5k

点赞数 2

分类专栏： R语言文章标签： r语言

本文链接：https://blog.csdn.net/Q_0529/article/details/122253773

版权

本文是R语言数据分析系列实验的第四部分，主要涉及描述性统计分析、频数表、独立性检验、相关性检验、t检验和方差分析等内容。通过分析hospital-data、death-rate和outcome-of-care-measures数据集，探讨了电话号码、医院属性、死亡率和医疗结果等多个维度的关系，使用了如aggregate、by、CrossTable等函数进行数据处理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

系列文章目录

实验一 R 语言数据结构、数据导入与数据处理

实验数据

实验数据下载

1. hospital-data 数据集
数据是关于一些医院的基础信息，数据包含13个字段，包含的字段分别为：供应商编号、医院名、地址 1、地址2、地址3、所处城市、所处州、邮编、所处乡镇、电话、医院类型、医院所有权和是否提供急救服务。数据信息如下：


Provider Number	供应商编号	Hospital Name	医院名	Address 1	地址1
Address 2	地址2	Address 3	地址3	City	所处城市
State	所处州	ZIP Code	邮编	County	所处乡镇
Phone Number	电话	Hospital Type	医院类型	Hospital Ownership	医院所有权
Emergency Services	是否提供急救服务

2. death rate 数据集
选取人类死亡率数据库（HMD，2007），提供了 1951-2005 年瑞典人口信息。这是个多变量的数据集，变量描述如下表：


Year	年份	Age	年龄
Female_Exp	女性生存人口数	Male_Exp	男性生存人口数
q_female	女性死亡率	q_male	男性死亡率
Female_death	女性死亡人数	Male_death	男性死亡人数
L_female_exp	对数女性生存人口数	L_male_exp	对数男性生存人口数

3. outcome-of-care-measures 数据集
该数据是记录超过4000家医院关于心脏病、心力衰竭、肺炎的30天内的死亡率和重入院率。（这份数据变量解释，可参照Hospital_Revised_Flatfiles.pdf中的 Outcome of Care Measures.csv 的变量请参考第 17 页编号 19），数据信息如下：


Provider Number	供应商编号	Hospital Name	医院名
Address 1	地址1	Address 2	地址2
Address 3	地址3	City	所处城市
State	所处州	ZIP Code	邮编
County	所处乡镇	Phone Number	电话
Hospital 30-Day Death (Mortality) Rates from Heart Attack	医院心脏病发作30天死亡率-列出各医院的风险调整率（百分比）	Comparison to U.S. Rate - Hospital 30-Day Death (Mortality) Rates from Heart Attack	与美国死亡率的比较-心脏病发作的医院30天死亡率-列出医院所属的死亡率和再入院类别。数值为：优于美国全国平均值、与美国全国平均值无差异、低于美国全国平均值、病例数量太少
Lower Mortality Estimate - Hospital 30-Day Death (Mortality) Rates from Heart Attack	较低的死亡率估计-心脏病发作的医院30天死亡率-列出各医院风险调整率的下限（区间估计）	Upper Mortality Estimate - Hospital 30-Day Death (Mortality) Rates from Heart Attack	死亡率上限估计-心脏病发作的医院30天死亡率-列出各医院风险调整率的上限（区间估计）
Number of Patients - Hospital 30-Day Death (Mortality) Rates from Heart Attack	患者人数-因心脏病发作住院30天死亡率-列出医院治疗心脏病发作的医疗保险患者人数	Footnote - Hospital 30-Day Death (Mortality) Rates from Heart Attack	脚注-心脏病发作的医院30天死亡率-列出与医院护理的心脏病发作结果相关的适当脚注值
Heart Failure	心力衰竭	Pneumonia	肺炎

提示：以下是本篇文章正文内容

一、实验目的

在数据被组织成合适的形式后，开始使用图形探索数据，而下一步通常就是使用数值描述每个变量的分布，接下来则是两两探索所选择变量之间的关系。

描述性统计分析
频数表（列联表）
独立性检验
相关性检验
t 检验
方差分析
组间差异的非参数检验

二、实验内容

题目1

通过读取“hospital-data.csv”将数据保存到 df 中，获取该数据的条数；查看数据中的前 5 条数据。
查看数据概况；求得邮编的范围。
我们默认电话号码是个数值，没有实际意义；应用 sapply 函数，通过调用用户自定义函数，返回电话号码的最大值，最小值，均值，中位数，标准差和方差。
利用 aggregate 求取各州的电话号码的中位数。
利用 by 求取各城市的电话号码的最大值和最小值；显示结果的前 3 条数据。
对所属州生成简单的频数统计表；并将这个频数表转化为比例值。
建立所属州和医院类型的二维列联表，命名为 mycontable；按列生成边际和。
利用 CrossTable 建立所属乡镇和是否提供急救服务字段的二维列联表，命名为 mycrosstable。

题目2

通过读取文件 death rate.csv 获取数据保存到 death 中,通过卡方检验来检验年龄与男性生存人口数（二级列联表）之间是否独立。
通过 assocstats 函数来度量年龄与男性的死亡率（二级列联表）之间的相关性。
计算年龄与男性的死亡率之间的 Pearson 和 Spearman 相关系数和 death 中所有变量的协方差。

题目3

通过读取文件 outcome-of-care-measures.csv 获取数据保存到 care_df 中,通过写一个名为 best 的函数，找到一个州中最好的医院，函数有两个参数，一个是有两个字母缩写的州名称，另一个是结果名称，包括（heart attack, heart failure, pneumonia），函数的返回结果为 30 天死亡率最低的医院名称。在处理排名的时候，如果出现死亡率相等的情况，将医院按照字母表顺序排序，取第一家医院。

自定义函数：best <- function(state, outcome){}。函数检查输入变量的有效性，如果输入一个无效的州名，函数停止程序，并提示”invalid state”,同样当输入的 outcome 参数有误时，提示”invalid outcome”

函数检验：best(“TX”, “heart failure”)；best(“MD”, “heart attack”)；best(“MD”, “pneumonia”)；best(“BB”, “heart attack”)；best(“NY”, “hert attack”)

三、实现过程与实验结果

题目1

1.通过读取“hospital-data.csv”将数据保存到df中，获取该数据的条数；查看数据中的前 5 条数据。

# 读取数据
df <- read.csv("R\\data\\ex4\\hospital-data.csv")

# 获取该数据的条数
nrow(df)
## [1] 4826

# 查看数据中的前5条数据
head(df, n = 5)

2.查看数据概况；求得

最低0.47元/天解锁文章