在临床研究中经常需要需要从医院的His系统里面导入化验单数据,然而从His系统里面导出的数据都是宽数据,很多都是多人多次反复的检查结果,并不好进行直接分析,如下图
我们需要转换成下列长数据形式才好进一步分析
我们今天将使用R语言自带的reshape2包对数据格式进行整理,将宽数据转换成长数据,或者根据需要在长宽数据进行转化,这在临床数据采集或数据挖掘中有积极的现实意义。
我们先来导入reshape2包和自己模拟一个轻度高血压的宽数据,
library(reshape2)
id<-rep(1:12)
time<-rep(1:3,4)
sbp<-round(rnorm(12,mean = 150,sd=9))
svd<-round(rnorm(12,mean = 90,sd=8))
bc<-data.frame(id,time,sbp,svd)
随便模拟一下,临床意义不管他,下图是数据的结构
be<-melt(bc,id=c("id","time"),
measure.vars = (c("sbp","svd")),
variable.name = "bp",
value.name = "value") ##ID为固定不变的变量,measure.vars为需要整合的变量,variable.name 为新变量名字
新的变量bp把sbp和svd整合在里面了。
我们需要的话也可以把长数据从新转成宽数据
#转成宽数据
dcast(be,id+time~bp)#转成宽数据
其他的还有
dcast(be,id+time~bp,mean)#转成宽数据并取平均值
dcast(be,time~bp,mean)#取3次timede
acast(be,id~time~bp)#分组表示sbp,svd的平均值
如果数据很大的话,我们也可以取一部分亚组,数据大的时候有用
取亚组的话还要导入一个plyr包
#取亚组表示
library(plyr)
acast(be,bp~id,mean, subset = .(bp == "sbp"))#取sbp为亚组的值
acast(be,bp~time,mean, subset = .(bp == "sbp"))#time每次测量平均值取sbp
acast(be,bp~time,mean, subset = .(time == 3))#取第三次sbp和svd的平均值
acast(be,bp~time,mean, subset = .(time <3))#time前两次的sbp和svd的平均值
更多精彩文章请关注公众号:零基础说科研