【文献阅读001】:Prompt-Guided Generation of Structured Chest X-Ray Report Using a Pre-trained LLM

年份:2024
作者:Li, Hongzhao, Hongyu Wang, Xia Sun, Hua He, and Jun Feng
会议:IEEE Conference on Multimedia Expo 2024
文章链接:https://arxiv.org/abs/2404.11209
github链接:无
关键词:提示,大型语言模型(LLM),可解释性,交互性
贡献:提示工程。利用一个大型语言模型整合医疗背景等数据源

摘要

作者引入了一种快速引导的方法,使用预训练的大型语言模型(LLM)生成结构化的胸部x射线报告。首先,作者识别胸部x光片中的解剖区域,以生成以关键视觉元素为中心的重点句子,从而用基于解剖的句子建立结构化的报告基础。作者还将检测到的解剖转换为文本提示,向LLM传达解剖理解。

Ⅰ INTRODUCTION

以前在医学报告生成方面的工作

主要采用编码器-解码器模型[3],使用CNN视觉编码器提取图像特征,使用Transformer[4]文本解码器将这些特征转换为文本输出。研究的重点是端到端从放射图像生成报告的目标。
缺点:结构缺陷+缺乏可解释性和交互性

针对上述问题

提出了一个结构化的报告生成模型,该模型使用预先训练的大型语言模型(LLM),以解剖区域和临床上下文提示为指导,以实现高可解释性和交互性。
首先,作者检测胸部x光片中的解剖区域,生成以区域为中心的描述,为结构化报告奠定解剖学基础。还将解剖信息翻译成文本提示,使后续模块能够理解解剖引导数据以获得更准确的描述。
其次,模型结合了临床背景信息,包括患者的病史和检查的原因等,通常由医生提供。这种互动性允许医生通过提供相关信息积极参与报告生成。
最后,作者利用一个大型语言模型,通过协调和整合这些数据源,将解剖区域描述、解剖提示和临床上下文提示整合到一个基于解剖学的单一结构中。
在这里插入图片描述

贡献

  • 引入了一个解剖导向的结构化报告生成框架,通过识别解剖区域来构建以解剖为中心的句子,为表达清晰的结构化报告奠定了基础。还整合了患者的背景信息,以获得全面的临床理解。
  • 通过将以解剖学为重点的句子和解剖学/临床提示输入到一个大型语言模型中,我们生成了具有解剖学和临床相关性的结构化、可解释的报告。此外,我们的架构使医生能够提供临床环境,从而在报告生成中进行干预和调整,以满足不同的临床需求。

Ⅱ RELATED WORK

生成医疗报告

大型语言模型

详情见原文

Ⅲ METHOD

提出了一个结构化的报告生成框架,以解剖学和临床提示为指导,模拟放射科医生的工作流程

  • 首先,我们识别胸部x光片中的解剖区域并提取每个区域的特征(第3.1节)。
  • 然后,句子生成器生成区域描述,形成结构化报告的基础(第3.2节)。
  • 同时,我们生成解剖提示,指示每个区域中的状态特征(及异常情况(第3.3节)。
  • 最后,我们将区域描述、解剖提示和医生的临床背景整合到一个大型语言模型的提示中,它生成最终的结构化报告(第3.4节)。
    在这里插入图片描述

A.解剖区域检测与特征提取

解剖区域检测和特征提取我们采用了Faster R-CNN[16]和ResNet-50主干[17]进行解剖区域检测和特征提取。Faster R-CNN生成区域建议,然后通过RoI池提取特征并对解剖区域进行分类,使用标准Faster R-CNN损失进行优化。接下来,对于每一个检测到的区域,我们将特征汇集起来,并将其转换成1024维的图像特征表示:
在这里插入图片描述
最后输出29个解剖区域和视觉特征V∈R 29×1024,每个区域捕获形态和病理信息。

B. 句子生成器

为了生成区域句子,我们采用了类似于[18]的Transformer解码器模型,该模型注意到先前标记的上下文。我们将区域视觉特征集成到注意力计算中,使模型在文本生成过程中能够同时考虑前面的标记和解剖视觉。我们通过最小化交叉熵损失来训练模型,以使生成的文本与预期的报告保持一致。最终,这有助于学习解剖区域的语言表达,形成我们结构化报告的基础。
在这里插入图片描述
其中,Y∈R 29×l为29个解剖区域生成的句子集合,这些区域共同构成结构化的报告基础,其中l为句子长度。

C.解剖促进生成

解剖提示生成模块包括三个组件:句子检测、异常检测和提示转换器。前两者是二元分类器,用于指示是否应该生成该区域的句子以及是否存在异常。例如,句子检测可能将心脏区域标记为关键区域,而异常检测则标记心脏异常。我们使用二元交叉熵损失进行优化。然后,提示转换器将这些分类转换为语言模型的明确提示,例如“主动脉弓明显异常”。
在这里插入图片描述
其中P1、P2为解剖位置和异常提示。最终,这使得有效的解剖提示合并,将解剖学集成到决策中,支持结构化报告生成。

D.结构化报告生成

大型语言模型(llm)具有强大的医学知识和推理能力。适当的提示可以让他们写出精确的医疗报告。当组织解剖描述和提示时,我们将其与医生的临床背景P3整合到LLM中(我们使用GPT-4[13])。具体来说,P3包括数据集中医生提供的病史、适应症、检查原因。这为医生提供了参与互动的机会。我们还设计了简单的自定义提示C(例如“根据解剖和临床细节生成结构化报告”)。这使LLM能够生成适当的结构化输出。
在这里插入图片描述
最后,LLM将句子描述Y、解剖提示P1、2和患者背景P3综合成一份全面的、临床实用的结构化报告Y(如下图)。
在这里插入图片描述

Ⅳ EXPERIMENTS

A.数据集和指标

数据集:MIMIC-CXR[6]
使用了官方的MIMIC-CXR划分:222,758个样本用于训练,1,808个样本用于验证,3,269个样本用于测试。此外,我们使用了Chest ImaGenome[20]生成的标签,其中的标签简洁地表示了图像中的29个胸部解剖区域,并与报告中描述每个区域的句子保持一致。

指标:使用标准自然语言生成(NLG)指标和临床效率(CE)指标评估放射学报告生成。
NLG指标是BLEU[21]、METEOR[22]和ROUGE[23]分数,它们是用于评估生成的自然语言流畅性的标准指标。由于NLG指标不足以衡量临床正确性,CE指标利用14种常见疾病类型标签来计算F1、精度和召回率与基本事实和报告的关系,从而定量衡量临床正确性。

B.实施细节

对于解剖检测,我们没有直接使用Faster R-CNN[16]特征,以避免过耦合。相反,我们汇集和转换区域特征,以确保检测性能。我们提取了29个区域和1024维的视觉特征作为生成的输入。分类器使用三个FC层(1024-512-128-1)和ReLU激活来处理非线性。句子生成器有三个8头的注意层,每个注意层有512个单元。我们在一个NVIDIA 3090 GPU上训练了三个阶段的所有模块:首先,训练解剖检测;然后对两个分类器进行相加和训练;最后,添加并训练句子生成器。
重要的是,每个新模块与先前训练的模块同时训练,以保持性能。集成模块使用固定的GPT-4,无需单独训练。所有模块都采用混合精度、AdamW优化器、学习率衰减和提前停止策略。

Ⅴ 总结

我们提出了一种结构化报告生成模型,利用预训练的大型语言模型LLM,通过解剖区域和临床背景提示来实现高可解释性和互动性。首先,我们引入了解剖结构检测,建立了结构化的以解剖为中心的视觉描述,这是一个新的贡献。其次,通过交互式文本提示和大型语言模型,我们实现了面向不同临床背景的医生指导,这在先前的工作中也缺乏。我们强调报告结构和过程的可解释性和互动性,并在相关指标上表现出色,这有助于解决该领域中普遍存在的限制问题。

最后:学习总结

根据胸片

  • 生成与解剖区域对应的句子描述
  • 生成解剖提示和临床提示
    将他们投入到大模型语言中,生成胸片对应的报告

模型架构概述
首先,我们识别胸部x光片中的解剖区域并提取每个区域的特征(第3.1节)。

  • 采用了Faster R-CNN[16]和ResNet-50主干[17]进行解剖区域检测和特征提取。
  • Faster R-CNN生成区域建议,然后通过RoI池提取特征并对解剖区域进行分类,使用标准Faster R-CNN损失进行优化。
  • 接下来,对于每一个检测到的区域,我们将特征汇集起来,并将其转换成1024维的图像特征表示V(式1)。

然后,句子生成器生成区域描述,形成结构化报告的基础(第3.2节)。

  • 采用类似于[18]的Transformer解码器模型(该模型注意到先前标记的上下文)。将区域视觉特征集成到注意力计算中,使模型在文本生成过程中能够同时考虑前面的标记和解剖视觉。
  • 我们通过最小化交叉熵损失来训练模型,以使生成的文本与预期的报告保持一致。

同时,我们生成解剖提示,指示每个区域的句子存在和异常(第3.3节)。

  • 解剖提示生成模块包括三个组件:句子检测、异常检测和提示转换器。
  • 前两者是二元分类器,用于指示是否应该生成该区域的句子以及是否存在异常。例如,句子检测可能将心脏区域标记为关键区域,而异常检测则标记心脏异常。
  • 然后,提示转换器将这些分类转换为语言模型的明确提示,例如“主动脉弓明显异常”。

最后,我们将区域描述、解剖提示和医生的临床背景整合到一个大型语言模型的提示中,它生成最终的结构化报告(第3.4节)。

  • LLM将句子描述Y、解剖提示P1、2和患者背景P3综合成一份全面的、临床实用的结构化报告Y
    在这里插入图片描述
    在这里插入图片描述
  • 50
    点赞
  • 51
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值