【R语言】实验四 数据分析

系列文章目录

实验一 R 语言数据结构、数据导入与数据处理

实验二 基本数据处理

实验三 数据可视化

实验四 数据分析

实验五 综合应用


实验数据

实验数据下载

1. hospital-data 数据集
数据是关于一些医院的基础信息,数据包含13个字段,包含的字段分别为:供应商编号、医院名、地址 1、地址2、地址3、所处城市、所处州、邮编、所处乡镇、电话、医院类型、医院所有权和是否提供急救服务。数据信息如下:

Provider Number 供应商编号 Hospital Name 医院名 Address 1 地址1
Address 2 地址2 Address 3 地址3 City 所处城市
State 所处州 ZIP Code 邮编 County 所处乡镇
Phone Number 电话 Hospital Type 医院类型 Hospital Ownership 医院所有权
Emergency Services 是否提供急救服务

2. death rate 数据集
选取人类死亡率数据库(HMD,2007),提供了 1951-2005 年瑞典人口信息。这是个多变量的数据集,变量描述如下表:

Year 年份 Age 年龄
Female_Exp 女性生存人口数 Male_Exp 男性生存人口数
q_female 女性死亡率 q_male 男性死亡率
Female_death 女性死亡人数 Male_death 男性死亡人数
L_female_exp 对数女性生存人口数 L_male_exp 对数男性生存人口数

3. outcome-of-care-measures 数据集
该数据是记录超过4000家医院关于心脏病、心力衰竭、肺炎的30天内的死亡率和重入院率。(这份数据变量解释,可参照Hospital_Revised_Flatfiles.pdf中的 Outcome of Care Measures.csv 的变量请参考第 17 页编号 19),数据信息如下:

Provider Number 供应商编号 Hospital Name 医院名
Address 1 地址1 Address 2 地址2
Address 3 地址3 City 所处城市
State 所处州 ZIP Code 邮编
County 所处乡镇 Phone Number 电话
Hospital 30-Day Death (Mortality) Rates from Heart Attack 医院心脏病发作30天死亡率-列出各医院的风险调整率(百分比) Comparison to U.S. Rate - Hospital 30-Day Death (Mortality) Rates from Heart Attack 与美国死亡率的比较-心脏病发作的医院30天死亡率-列出医院所属的死亡率和再入院类别。数值为:优于美国全国平均值、与美国全国平均值无差异、低于美国全国平均值、病例数量太少
Lower Mortality Estimate - Hospital 30-Day Death (Mortality) Rates from Heart Attack 较低的死亡率估计-心脏病发作的医院30天死亡率-列出各医院风险调整率的下限(区间估计) Upper Mortality Estimate - Hospital 30-Day Death (Mortality) Rates from Heart Attack 死亡率上限估计-心脏病发作的医院30天死亡率-列出各医院风险调整率的上限(区间估计)
Number of Patients - Hospital 30-Day Death (Mortality) Rates from Heart Attack 患者人数-因心脏病发作住院30天死亡率-列出医院治疗心脏病发作的医疗保险患者人数 Footnote - Hospital 30-Day Death (Mortality) Rates from Heart Attack 脚注-心脏病发作的医院30天死亡率-列出与医院护理的心脏病发作结果相关的适当脚注值
Heart Failure 心力衰竭 Pneumonia 肺炎

提示:以下是本篇文章正文内容

一、实验目的

在数据被组织成合适的形式后,开始使用图形探索数据,而下一步通常就是使用数值描述每个变量的分布,接下来则是两两探索所选择变量之间的关系。

  1. 描述性统计分析
  2. 频数表(列联表)
  3. 独立性检验
  4. 相关性检验
  5. t 检验
  6. 方差分析
  7. 组间差异的非参数检验

二、实验内容

题目1

  1. 通过读取“hospital-data.csv”将数据保存到 df 中,获取该数据的条数;查看数据中的前 5 条数据。
  2. 查看数据概况;求得邮编的范围。
  3. 我们默认电话号码是个数值,没有实际意义;应用 sapply 函数,通过调用用户自定义函数,返回电话号码的最大值,最小值,均值,中位数,标准差和方差。
  4. 利用 aggregate 求取各州的电话号码的中位数。
  5. 利用 by 求取各城市的电话号码的最大值和最小值;显示结果的前 3 条数据。
  6. 对所属州生成简单的频数统计表;并将这个频数表转化为比例值。
  7. 建立所属州和医院类型的二维列联表,命名为 mycontable;按列生成边际和。
  8. 利用 CrossTable 建立所属乡镇和是否提供急救服务字段的二维列联表,命名为 mycrosstable。

题目2

  1. 通过读取文件 death rate.csv 获取数据保存到 death 中,通过卡方检验来检验年龄与男性生存人口数(二级列联表)之间是否独立。
  2. 通过 assocstats 函数来度量年龄与男性的死亡率(二级列联表)之间的相关性。
  3. 计算年龄与男性的死亡率之间的 Pearson 和 Spearman 相关系数和 death 中所有变量的协方差。

题目3

通过读取文件 outcome-of-care-measures.csv 获取数据保存到 care_df 中,通过写一个名为 best 的函数,找到一个州中最好的医院,函数有两个参数,一个是有两个字母缩写的州名称,另一个是结果名称,包括(heart attack, heart failure, pneumonia),函数的返回结果为 30 天死亡率最低的医院名称。在处理排名的时候,如果出现死亡率相等的情况,将医院按照字母表顺序排序,取第一家医院。

自定义函数:best <- function(state, outcome){}。函数检查输入变量的有效性,如果输入一个无效的州名,函数停止程序,并提示”invalid state”,同样当输入的 outcome 参数有误时,提示”invalid outcome”

函数检验:best(“TX”, “heart failure”);best(“MD”, “heart attack”);best(“MD”, “pneumonia”);best(“BB”, “heart attack”);best(“NY”, “hert attack”)


三、实现过程与实验结果

题目1

1.通过读取“hospital-data.csv”将数据保存到df中,获取该数据的条数;查看数据中的前 5 条数据。

# 读取数据
df <- read.csv("R\\data\\ex4\\hospital-data.csv")
# 获取该数据的条数
nrow(df)
## [1] 4826
# 查看数据中的前5条数据
head(df, n = 5)

2.查看数据概况;求得

  • 2
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值