尽管电子医疗记录(Electronic Healthcare Records, EHR)非常丰富,但其异构性限制了医疗数据在构建预测模型时的使用。我们提出了通用医疗保健预测框架(UniHPF),该框架不需要医学领域知识,对多个预测任务进行最少的预处理。实验结果表明,UniHPF能够建立大规模的电子病历模型,能够处理来自不同电子病历系统的任何形式的医疗数据。我们的框架在多源学习任务(包括迁移和集中学习)中显著优于基线模型,同时在单个医疗数据集上训练时也显示出可比的结果。
提出背景:
- 不同的EHR系统采用不同的医疗代码标准(如ICD-9、ICD-10、原始文本),并使用不同的数据库模式存储患者记录。这种异质性是EHR模型开发的障碍。每家医院都必须聘请自己的数据专家对EHR进行严格的预处理。
- 一个EHR预测模型框架需要对每个医疗中心的模式进行基于领域知识的预处理,这需要特定于模式和特定于代码系统的特征工程。它们在各自的设置上都是专一的,所以它们只适用于特定的数据集,而不适用于多样化和异构的一般EHR系统。这导致输入特征依赖于每家医院,并且与不同医院之间的模型不兼容。
- 此外,医疗代码和模式的差异阻碍了多个医疗组织进行多源学习,例如,进一步训练以前在不同的EHR数据库上训练过的模型(即转移学习),或使用来自多个医院的EHR数据开发模型(即集中学习)。因此,医院不能充分利用多家医疗机构收集的大量EHR数据。
为了解决这一异构问题,需要一个统一的框架。
贡献:
提出了一种基于神经网络的通用框架UniHPF,它可以在不依赖领域知识的情况下促进任何EHR数据的学习。这是第一个用一个统一的框架来处理各种不同的电子病历的方法,而不需要对每个不同的电子病历有任何事先的了解。
方法在单个EHR数据集任务上取得了相当的性能,同时在池学习和迁移学习上始终显示出卓越的性能,这需要一个模型来理解各种异构的EHR系统。这意味着我们的框架可以作为构建大规模EHR模型的指南,该模型可以处理来自多个地点的任何形式的EHR系统。
实验设置:
1、Experimental Settings
数据集:我们利用了三个公开可用的数据集;MIMIC-III, MIMIC-IV, eICU。
数据预处理和分割:年龄在18岁以上,在ICU停留24小时以上的患者。只考虑在单次住院期间的第一次ICU住院,并取消任何少于5次医疗事件的ICU住院。删除整个数据集中出现少于5次的特征。
将UniHPF应用于任何EHR数据集,只需要两个预处理步骤,不涉及任何领域知识。
- 首先,我们删除值仅由整数组成的特性。这将自动导致使用所有连续值特征(例如,实验室测试结果)和文本特征(例如,实验室测试名称),而删除患者ID等特征。
- 其次,我们将数字值逐位分割,并为每个数字位分配一个特殊的令牌,即数字位嵌入。
为了保证实验和分析的可靠性,我们对每个目标标签按照8:1:1的比例分层将数据集划分为训练集、验证集和测试集。所有的实验都是用五种随机种子进行。
2、Experimental Design
(1) single domain prediction:In single domain prediction, all models are trained on a single dataset’s training set and tested on the same dataset’s test set (e.g., trained on eICU’s training set, tested on eICU’s test set).
(2) pooled learning: 为了在预测任务中充分利用电子病历的丰富性,展示我们的框架在这个场景中的功能,我们在来自多个来源的集合数据集上训练模型,并在每个数据集的测试集上评估它们。这种集中学习可以训练具有不同患者信息的模型,最终实现更精确的预测。
(3) transfer learning:在这个场景中,每个模型首先在一个源数据集上训练,然后在一个目标数据集上直接评估(即零镜头)或进一步训练(即微调)。
局限性:
我们不能处理一些EHR事件,如“图表事件”,因为如果我们使用所有现有的事件类型,事件序列的长度会变得非常长。计算约束禁止将这样长的序列直接传递到模型中。如果我们能够利用所有可用的EHR事件类型,用一个现代的内存高效的体系结构(如执行程序和S4)来替代的话,我们期望性能的提高。