每天读一篇文献9--UniHPF : Universal Healthcare Predictive Framework with Zero Domain Knowledge

尽管电子医疗记录(Electronic Healthcare Records, EHR)非常丰富,但其异构性限制了医疗数据在构建预测模型时的使用。我们提出了通用医疗保健预测框架(UniHPF),该框架不需要医学领域知识对多个预测任务进行最少的预处理。实验结果表明,UniHPF能够建立大规模的电子病历模型,能够处理来自不同电子病历系统的任何形式的医疗数据。我们的框架在多源学习任务(包括迁移和集中学习)中显著优于基线模型,同时在单个医疗数据集上训练时也显示出可比的结果。

提出背景:

  • 不同的EHR系统采用不同的医疗代码标准(如ICD-9、ICD-10、原始文本),并使用不同的数据库模式存储患者记录。这种异质性是EHR模型开发的障碍。每家医院都必须聘请自己的数据专家对EHR进行严格的预处理。
  • 一个EHR预测模型框架需要对每个医疗中心的模式进行基于领域知识的预处理,这需要特定于模式和特定于代码系统的特征工程。它们在各自的设置上都是专一的,所以它们只适用于特定的数据集,而不适用于多样化和异构的一般EHR系统。这导致输入特征依赖于每家医院,并且与不同医院之间的模型不兼容
  • 此外,医疗代码和模式的差异阻碍了多个医疗组织进行多源学习,例如,进一步训练以前在不同的EHR数据库上训练过的模型(即转移学习),或使用来自多个医院的EHR数据开发模型(即集中学习)。因此,医院不能充分利用多家医疗机构收集的大量EHR数据。

为了解决这一异构问题,需要一个统一的框架。

贡献:

提出了一种基于神经网络的通用框架UniHPF,它可以在不依赖领域知识的情况下促进任何EHR数据的学习。这是第一个用一个统一的框架来处理各种不同的电子病历的方法,而不需要对每个不同的电子病历有任何事先的了解。

方法在单个EHR数据集任务上取得了相当的性能,同时在池学习和迁移学习上始终显示出卓越的性能,这需要一个模型来理解各种异构的EHR系统。这意味着我们的框架可以作为构建大规模EHR模型的指南,该模型可以处理来自多个地点的任何形式的EHR系统。

实验设置:

1、Experimental Settings

数据集:我们利用了三个公开可用的数据集;MIMIC-III, MIMIC-IV, eICU。

数据预处理和分割:年龄在18岁以上,在ICU停留24小时以上的患者。只考虑在单次住院期间的第一次ICU住院,并取消任何少于5次医疗事件的ICU住院。删除整个数据集中出现少于5次的特征。

将UniHPF应用于任何EHR数据集,只需要两个预处理步骤,不涉及任何领域知识。

  • 首先,我们删除值仅由整数组成的特性。这将自动导致使用所有连续值特征(例如,实验室测试结果)和文本特征(例如,实验室测试名称),而删除患者ID等特征。
  • 其次,我们将数字值逐位分割,并为每个数字位分配一个特殊的令牌,即数字位嵌入

为了保证实验和分析的可靠性,我们对每个目标标签按照8:1:1的比例分层将数据集划分为训练集、验证集和测试集。所有的实验都是用五种随机种子进行。

2、Experimental Design

(1) single domain prediction:In single domain prediction, all models are trained on a single dataset’s training set and tested on the same dataset’s test set (e.g., trained on eICU’s training set, tested on eICU’s test set).

(2) pooled learning: 为了在预测任务中充分利用电子病历的丰富性,展示我们的框架在这个场景中的功能,我们在来自多个来源的集合数据集上训练模型,并在每个数据集的测试集上评估它们。这种集中学习可以训练具有不同患者信息的模型,最终实现更精确的预测。

(3) transfer learning:在这个场景中,每个模型首先在一个源数据集上训练,然后在一个目标数据集上直接评估(即零镜头)或进一步训练(即微调)。

局限性:

我们不能处理一些EHR事件,如“图表事件”,因为如果我们使用所有现有的事件类型,事件序列的长度会变得非常长。计算约束禁止将这样长的序列直接传递到模型中。如果我们能够利用所有可用的EHR事件类型,用一个现代的内存高效的体系结构(如执行程序和S4)来替代的话,我们期望性能的提高。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
NLP-CHEALCUSSERC(中文医疗客服语料库)是MagicHub(魔盒)开发的一个语料库。这个语料库被设计用于训练和评估中文自然语言处理(NLP)模型,特别是在医疗客服领域。它收集了丰富的中文医疗客服对话数据,以提供一个能够更好理解和回答用户问题的机器学习模型。 NLP-CHEALCUSSERC的设计目的是为了满足日益增长的在线医疗服务需求。该语料库包含大量的医疗对话片段,涵盖了各种常见的健康问题、症状描述、咨询需求和医疗建议等内容。通过使用这个语料库,NLP模型可以更好地理解人们在医疗客服对话中提出的问题,并作出适当的回答和建议。 在MagicHub的开发过程中,NLP-CHEALCUSSERC语料库的质量得到了大量的关注和验证。为了确保数据的准确性和真实性,MagicHub团队使用了专业的医疗知识来审核和验证每一条对话数据。同时,他们还采用了数据脱敏等技术手段,确保对用户隐私的保护。 语料库的信息还可以进行分析和挖掘,以便进一步优化医疗客服系统的性能和用户体验。该语料库还可以用于评估不同的NLP模型,并为训练新的模型提供参考和基准。通过更好地训练和优化NLP模型,中文医疗客服系统可以更好地为用户提供准确和实用的服务,提升整体的客户体验。 总之,NLP-CHEALCUSSERC提供了一个高质量的中文医疗客服语料库,帮助开发和提升NLP模型在医疗领域的效果。通过这个语料库,中文医疗客服系统可以更好地理解用户需求,并提供更有效的解答和建议,为用户提供更好的医疗服务体验。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值