MIMIC-IV-ED v2.2
Abstract
MIMIC-IV-ED 是一个大型的免费数据库,记录了2011年至2019年间急诊部门(ED)贝斯以色列女执事医疗中心的入院情况。该数据库包含约425,000个 ED 停留。生命体征,分类信息,药物协调,药物管理和出院诊断是可用的。所有数据都被确定为符合健康信息便携性和责任法(HIPAA)安全港条款。MIMIC-IV-ED 旨在支持各种各样的教育倡议和研究。
Background
急诊科(ED)是一个高需求的环境,病人被评估和分流为进一步的护理。ED 患者组成一个严重程度从轻微擦伤到危及生命的心脏并发症的异质性队列。急诊室从根本上说是一个资源有限的环境,其中最重要的资源,人类的注意力是定量配给,以最大限度地积极的患者结果。算法方法的最新进展为改善急诊护理质量提供了一个令人兴奋的机会。数据驱动分析的一个先决条件是足够大数据集,而广泛的数据可访问性使研究具有可重复性。MIMIC-IV-ED 旨在通过提供一个大型的数据库来支持急诊护理中的数据分析,该数据库位于马萨诸塞州波士顿的一个三级学术医疗中心。它是 MIMIC-IV 的一个模块,这意味着 MIMIC-IV-ED 中包含的信息可以与 MIMIC-IV 中的信息联系起来[1]。
Methods
数据是以扩展标记语言(XML)从贝斯以色列女执事医疗中心(BIDMC) ED 中提取出来的,然后从 XML 转换成一个非规范化的关系数据库,旨在简化分析。所有数据都没有被标识为符合健康保险便利和责任法案(HIPAA)安全港条款。患者标识符被随机替代。数据集中存在三个去隐私化的患者标识符: subject _ id、 hadm _ id 和 stay _ id。所有这三个标识符都是按照 MIMIC-IV 和 MIMIC-CXR 生成的,允许使用一个或多个上述标识符连接这些数据集。根据患者的具体情况,日期被随机改为2100-2200之间的时间。日期变更一致地应用于单个 subject _ id,与单个 subject _ id 相关联的所有时间在时间上是一致的,并反映了事件的真实顺序。相反,不同的subject _ id 在时间上有重叠的数据不一定同时出现在 ED 中。最后,使用混合去识别算法处理自由文本字段,并将检测到的 PHI 实体替换为三个下划线(’_ _’)[6]。
创建了一个由六个表组成的模式。创建 edstay 表是为了跟踪根据 stay _ id 确定的单个患者住院和急诊出院情况。五个数据表存储了病人住院期间记录的信息: diagnosis,medrecon,pyxis,triage, andvitalsign.。表的命名是为了反映其内部或其来源的数据。虽然 MIMIC-IV-ED 的核心目标是为研究目的提供真实世界的临床数据,因此限制了在数据发布之前进行的预处理的数量,但在转换过程中需要一些数据清理步骤。在使用表特定的主键插入时,观察数据被删除。主键是 stay _ id、 charttime (如果存在)和其他适当的属性列(例如 pyxis 中的 name 列)的组合。为了去识别的目的,一个正则表达式被用来保留numeric vital signs in the triagea和vitalsign tables。在 ED 停留之外超过一年的观察——通常由于图表时间中的排印错误而发生——被删除。