MIMIC数据库记录了18万个病人的43万次住院记录,其中记录了患者的26089种疾病,以及920个实验室指标。如何在众多疾病跟指标中提取到符合自己研究目的的数据非常重要。本次教程阿毅就以MIMIC数据库中患者人数最多的疾病作为参考,提取常见的一些实验室指标。
一,确定目标疾病ICD编号
我们本次的目标疾病是MIMIC数据库中患者人数最多的疾病,为了分析方便,阿毅写了一个后端管理系统,用于查询相关数据。
从上图可知,原发性高血压在MIMIC数据库中的患者人数是最多的,所以本系列教程,阿毅会以原发性高血压作为基础疾病,提取其他数据指标。
二,确定实验室指标ID
查看实验室指标编码,如下图
从上图可知,红细胞积压,肌酐,血小板是最常见的3个指标,本次阿毅就以提取红细胞积压跟血小板为例,提取这两个实验室指标。
三,提取患者ID
在第一步,阿毅已经从系统获取到了原发性高血压的ICD编码为4019,如果要根据ICD编码获取患者ID,需要从mimiciv_hosp.diagnoses_icd表查询。
四,提取红细胞计数
在第二步,阿毅已经从系统中获取到了红细胞积压的指标ID为51221,查询实验室指标,需要从表mimiciv_hosp.labevents表查询。
同理,可以查询血小板计数
五,聚合数据
通常针对每个患者的每次住院记录,同一个指标可能会测量很多次,但是我们只需要每个指标取一个值进行分析即可,这就需要用到数据库的聚合函数。
在这里阿毅红细胞积压取平均值,血小板取最大值。
同理,血小板取最大的一次测量值的脚本如下
六,数据合并
最后,阿毅把这两个指标的数据合并到同一个SQL,并且只查询原发性高血压的患者指标,数据合并需要使用到Postgres数据库的子查询。
关注微信公众号“科研分析”,后台回复“数据提取教程1”,即可获取本次教程的完整脚本。