AI大模型赋能医疗！北航提出REALM：基于RAG的多模态电子健康记录分析框架

最新推荐文章于 2025-05-11 23:27:05 发布

程序员辣条

最新推荐文章于 2025-05-11 23:27:05 发布

阅读量681

点赞数 24

文章标签：人工智能 Ollama AI DeepSeek 程序员 RAG 大模型

本文链接：https://blog.csdn.net/m0_65555479/article/details/146457081

版权

在现代医疗领域，电子健康记录(EHR)的分析和预测已经成为提升医疗服务质量的关键技术。然而，如何有效整合和利用临床诊疗过程中产生的多模态数据，一直是一个具有挑战性的问题。近日，北京航空航天大学人工智能研究院团队提出了一个创新性的解决方案——REALM框架，这是一个基于检索增强生成(RAG)的多模态EHR分析框架，通过结合大语言模型(LLM)的语义理解能力和专业医疗知识图谱，显著提升了临床预测的准确性。

研究背景与挑战

医疗领域的数据具有典型的多模态特征，主要包括临床文本记录和多变量时间序列数据。这些数据反映了医生在临床决策过程中对患者的全面评估。然而，传统的深度学习方法往往缺乏专业的医学背景知识，无法准确识别和理解EHR中的关键疾病实体和检验结果。

虽然一些研究尝试通过引入知识图谱来增强模型的医学认知能力，但仍存在以下限制：

主要关注结构化知识的提取，忽视了非结构化数据中的丰富语义信息
仅从结构化数据中提取实体，未能充分利用临床文本和时间序列数据
现有基于LLM的方法存在幻觉问题，可能产生错误或虚构的信息

REALM框架详解

为了解决上述问题，研究团队提出了REALM框架。如图1所示，该框架包含三个主要模块：

多模态EHR嵌入提取

该模块负责将原始的EHR数据转换为深层语义嵌入。具体包括：

时间序列数据处理：采用GRU网络处理时间序列数据，生成嵌入表示：

临床文本处理：使用LLM编码器处理临床文本，生成文本嵌入：

时间信息处理：通过MLP网络结合正弦余弦变换处理时间戳，生成时间嵌入：

RAG驱动的增强流水线

这是REALM框架的核心创新点，主要包含两个子模块：

时间序列RAG模块：如图2所示，该模块通过Z-score方法识别异常特征：

对于每个特征，计算其Z-score ：

临床文本RAG模块：如图3所示，该模块利用LLM提取疾病实体，并通过后处理机制消除幻觉：

实体提取过程可表示为：

通过与知识图谱的语义匹配，计算余弦相似度：

多模态融合网络

如图4所示，该模块采用自注意力和交叉注意力机制，自适应地融合不同模态的信息：

融合过程包括以下步骤：

文本和RAG知识融合：
自注意力和交叉注意力计算：
最终预测：

实验结果与分析

主要实验结果

如表2所示，REALM在MIMIC-III数据集上的住院死亡率预测和30天再入院预测任务中都取得了最优性能：

住院死亡率预测：

AUROC: 86.22±0.81
AUPRC: 52.64±2.47
min(+P,Se): 50.92±2.01
F1: 51.83±2.10

30天再入院预测：

AUROC: 80.24±1.53
AUPRC: 52.06±2.64
min(+P,Se): 51.20±2.50
F1: 50.58±2.51

消融实验

RAG增强效果分析如表3所示，RAG增强显著提升了单模态性能：

时间序列：AUROC从83.43提升至84.22
临床文本：AUROC从80.11提升至81.01

文本编码器比较如表4所示，Qwen-7B模型在所有指标上都优于BERT和BGE-M3。
数据稀疏性鲁棒性分析如图5所示，REALM在不同数据缺失率下都表现出优越的性能：

实体提取质量评估如图6所示，通过XGBoost计算实体重要性，验证了提取实体的有效性：

结论与展望

REALM框架成功地将大语言模型的语义理解能力与专业医疗知识图谱相结合，为多模态EHR数据分析提供了一个新的范式。该框架不仅在预测性能上取得了显著提升，而且展现出良好的数据稀疏性鲁棒性，为临床决策支持系统的发展提供了新的思路。

论文代码已开源，项目地址：https://github.com/yhzhu99/pyehr

Q&A环节：

Q1: REALM框架中的RAG驱动增强流水线是如何从时间序列数据中提取实体并与知识图谱匹配的？具体的技术细节是什么？

在REALM框架中，时间序列数据的实体提取和知识图谱匹配是一个精心设计的流程。首先，对于时间序列数据，框架采用基于统计的异常检测方法。具体来说，对每个特征，通过计算Z-score来识别异常值：

这里，代表第i个特征的Z-score值。系统设定一个阈值，当超过这个阈值时，就将该特征标记为异常实体。

如图2所示的时间序列RAG流水线，通过这种方式可以识别出如血压过低或血尿素氮过高等异常情况：

对于识别出的实体，系统使用LLM进行编码：

然后计算与知识图谱中节点的余弦相似度：

当相似度超过预设阈值时，系统就认为找到了匹配的知识图谱节点。这种方法既保证了特征异常的准确识别，又能够与专业医学知识建立有效连接。

Q2: 请详细解释REALM框架中的多模态融合网络是如何工作的？为什么要采用自注意力和交叉注意力机制？

REALM的多模态融合网络是一个复杂而精妙的设计。如图4所示的融合模块展示了整个过程：

首先，系统将检索到的知识与文本表示进行融合：

然后，采用多头自注意力机制(MHSA)分别处理增强后的文本表示和时间序列表示：

接着使用多头交叉注意力机制(MHCA)进行模态间的信息交互：

最后通过注意力池化和MLP得到最终预测：

采用这种复杂的注意力机制的原因在于：自注意力机制能够捕获单个模态内的长程依赖关系，而交叉注意力机制则能够实现不同模态间的有效信息交互，从而得到更全面的患者表示。

Q3: REALM框架在处理临床文本时如何解决LLM的幻觉问题？其实体提取和精炼的具体流程是什么？

处理临床文本的幻觉问题是REALM框架的一个重要创新点。如图3所示的临床文本RAG流水线展示了整个过程：

实体提取过程分为两个主要步骤：

实体提取：通过多轮调用LLM来扩充实体集合：

实体精炼：设计了三步后处理程序来消除幻觉：

其中包括：

删除原文中未出现的实体
使用LLM过滤非疾病类型的实体
删除语义重复的实体

这个过程会循环进行直到收敛，确保提取实体的质量和数量都达到要求。系统通过这种严格的后处理机制，有效地解决了LLM的幻觉问题。

Q4: REALM框架在数据稀疏性问题上表现如何？请详细解释其鲁棒性实验结果和原理。

REALM框架在数据稀疏性问题上展现出了优异的鲁棒性。如图5所示的实验结果清晰地展示了这一点：

研究团队通过人为减少数据集完整性的方式进行实验，分别测试了20%、40%、60%和80%的数据缺失情况。实验结果表明，即使在极端的数据稀疏情况下，REALM仍然保持了较好的性能。这种鲁棒性主要来源于以下几个方面：

RAG增强机制：通过知识图谱的补充信息，减轻了数据稀疏性的影响。实验中的损失函数为：

多模态融合：不同模态间的互补性进一步增强了模型的鲁棒性。

Q5: REALM框架是如何评估提取实体的质量的？请详细解释其评估方法和实验结果。

REALM框架采用了一种创新的方法来评估提取实体的质量。如图6所示的案例研究展示了这一过程：

评估方法主要包括以下几个步骤：

实体重要性计算：将RAG流水线提取的实体作为输入特征，使用XGBoost模型计算每个实体对预测任务的重要性分数。
知识图谱验证：对于每个提取的实体，系统会检查其在知识图谱中对应节点的属性信息，验证其临床相关性。
实体质量评分：通过设定阈值和来控制实体提取和匹配的质量：

（时间序列特征）（知识图谱匹配）

实验结果表明，高重要性分数的实体（如"心房颤动"和"败血症"）确实与临床实践中的危险疾病相对应，证实了REALM框架在实体提取方面的有效性。

这种多层次的质量评估方法，不仅确保了提取实体的准确性，也验证了这些实体对临床预测任务的实际贡献。

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。