LARGE LANGUAGE MULTIMODAL MODELS FOR 5-YEAR CHRONIC DISEASE COHORT PREDICTION USING EHR DATA

本文是LLM系列文章,针对《LARGE LANGUAGE MULTIMODAL MODELS FOR 5-YEAR CHRONIC DISEASE COHORT PREDICTION USING EHR DATA》的翻译。

用EHR数据预测5年慢性病队列的大语言多模态模型

摘要

糖尿病等慢性疾病是全球发病率和死亡率的主要原因。已经尝试在诊断中使用各种深度学习模型进行大量研究。然而,以前的大多数研究都有一定的局限性,包括使用公开的数据集(如MIMIC)和不平衡数据。在本研究中,我们从台湾医院数据库中收集了五年电子健康记录(EHR),包括1420596份临床笔记、387392份实验室检测结果和1505多个实验室检测项目,重点研究预训练大语言模型。我们提出了一种新的大型语言多模态模型(LLMM)框架,该框架结合了来自临床笔记和实验室测试结果的多模态数据,用于预测慢性病风险。我们的方法结合了文本嵌入编码器和多头注意力层来学习实验室测试值,利用深度神经网络(DNN)模块将血液特征与慢性病语义合并到一个潜在空间中。在我们的实验中,我们观察到,当与注意力融合相结合时,clinicalBERT和PubMed BERT在多类慢性病和糖尿病预测中的准确率可以达到73%。通过将实验室测试值转换为文本描述并使用Flan T-5模型,我们实现了76%的ROC曲线下面积(AUROC),证明了利用数字文本数据在语言模型中进行训练和推理的有效性。这种方法显著提高了早期糖尿病预测的准确性。

1 引言

2 相关工作

3 方法

4 Cohort数据收集

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值