【文献阅读001】：Prompt-Guided Generation of Structured Chest X-Ray Report Using a Pre-trained LLM-CSDN博客

本文链接：https://blog.csdn.net/qq_39213607/article/details/140216860

年份：2024
作者：Li, Hongzhao, Hongyu Wang, Xia Sun, Hua He, and Jun Feng
会议：IEEE Conference on Multimedia Expo 2024
文章链接：https://arxiv.org/abs/2404.11209
github链接：无
关键词：提示，大型语言模型(LLM)，可解释性，交互性
贡献：提示工程。利用一个大型语言模型整合医疗背景等数据源

摘要

作者引入了一种快速引导的方法，使用预训练的大型语言模型(LLM)生成结构化的胸部x射线报告。首先，作者识别胸部x光片中的解剖区域，以生成以关键视觉元素为中心的重点句子，从而用基于解剖的句子建立结构化的报告基础。作者还将检测到的解剖转换为文本提示，向LLM传达解剖理解。

Ⅰ INTRODUCTION

以前在医学报告生成方面的工作

主要采用编码器-解码器模型[3]，使用CNN视觉编码器提取图像特征，使用Transformer[4]文本解码器将这些特征转换为文本输出。研究的重点是端到端从放射图像生成报告的目标。
缺点：结构缺陷+缺乏可解释性和交互性

针对上述问题

提出了一个结构化的报告生成模型，该模型使用预先训练的大型语言模型(LLM)，以解剖区域和临床上下文提示为指导，以实现高可解释性和交互性。
首先，作者检测胸部x光片中的解剖区域，生成以区域为中心的描述，为结构化报告奠定解剖学基础。还将解剖信息翻译成文本提示，使后续模块能够理解解剖引导数据以获得更准确的描述。
其次，模型结合了临床背景信息，包括患者的病史和检查的原因等，通常由医生提供。这种互动性允许医生通过提供相关信息积极参与报告生成。
最后，作者利用一个大型语言模型，通过协调和整合这些数据源，将解剖区域描述、解剖提示和临床上下文提示整合到一个基于解剖学的单一结构中。
在这里插入图片描述

贡献

引入了一个解剖导向的结构化报告生成框架，通过识别解剖区域来构建以解剖为中心的句子，为表达清晰的结构化报告奠定了基础。还整合了患者的背景信息，以获得全面的临床理解。
通过将以解剖学为重点的句子和解剖学/临床提示输入到一个大型语言模型中，我们生成了具有解剖学和临床相关性的结构化、可解释的报告。此外，我们的架构使医生能够提供临床环境，从而在报告生成中进行干预和调整，以满足不同的临床需求。

Ⅱ RELATED WORK

生成医疗报告

大型语言模型

详情见原文

Ⅲ METHOD

提出了一个结构化的报告生成框架，以解剖学和临床提示为指导，模拟放射科医生的工作流程。

首先，我们识别胸部x光片中的解剖区域并提取每个区域的特征(第3.1节)。
然后，句子生成器生成区域描述，形成结构化报告的基础(第3.2节)。
同时，我们生成解剖提示，指示每个区域中的状态特征（及异常情况(第3.3节)。
最后，我们将区域描述、解剖提示和医生的临床背景整合到一个大型语言模型的提示中，它生成最终的结构化报告(第3.4节)。

A.解剖区域检测与特征提取

解剖区域检测和特征提取我们采用了Faster R-CNN[16]和ResNet-50主干[17]进行解剖区域检测和特征提取。Faster R-CNN生成区域建议，然后通过RoI池提取特征并对解剖区域进行分类，使用标准Faster R-CNN损失进行优化。接下来，对于每一个检测到的区域，我们将特征汇集起来，并将其转换成1024维的图像特征表示:
在这里插入图片描述
最后输出29个解剖区域和视觉特征V∈R 29×1024，每个区域捕获形态和病理信息。

B. 句子生成器

为了生成区域句子，我们采用了类似于[18]的Transformer解码器模型，该模型注意到先前标记的上下文。我们将区域视觉特征集成到注意力计算中，使模型在文本生成过程中能够同时考虑前面的标记和解剖视觉。我们通过最小化交叉熵损失来训练模型，以使生成的文本与预期的报告保持一致。最终，这有助于学习解剖区域的语言表达，形成我们结构化报告的基础。
在这里插入图片描述
其中，Y∈R 29×l为29个解剖区域生成的句子集合，这些区域共同构成结构化的报告基础，其中l为句子长度。

C.解剖促进生成

解剖提示生成模块包括三个组件：句子检测、异常检测和提示转换器。前两者是二元分类器，用于指示是否应该生成该区域的句子以及是否存在异常。例如，句子检测可能将心脏区域标记为关键区域，而异常检测则标记心脏异常。我们使用二元交叉熵损失进行优化。然后，提示转换器将这些分类转换为语言模型的明确提示，例如“主动脉弓明显异常”。
在这里插入图片描述
其中P1、P2为解剖位置和异常提示。最终，这使得有效的解剖提示合并，将解剖学集成到决策中，支持结构化报告生成。

D.结构化报告生成

大型语言模型(llm)具有强大的医学知识和推理能力。适当的提示可以让他们写出精确的医疗报告。当组织解剖描述和提示时，我们将其与医生的临床背景P3整合到LLM中(我们使用GPT-4[13])。具体来说，P3包括数据集中医生提供的病史、适应症、检查原因。这为医生提供了参与互动的机会。我们还设计了简单的自定义提示C(例如“根据解剖和临床细节生成结构化报告”)。这使LLM能够生成适当的结构化输出。
在这里插入图片描述
最后，LLM将句子描述Y、解剖提示P1、2和患者背景P3综合成一份全面的、临床实用的结构化报告Y(如下图)。

Ⅳ EXPERIMENTS

A.数据集和指标

数据集：MIMIC-CXR[6]
使用了官方的MIMIC-CXR划分:222,758个样本用于训练，1,808个样本用于验证，3,269个样本用于测试。此外，我们使用了Chest ImaGenome[20]生成的标签，其中的标签简洁地表示了图像中的29个胸部解剖区域，并与报告中描述每个区域的句子保持一致。

指标：使用标准自然语言生成(NLG)指标和临床效率(CE)指标评估放射学报告生成。
NLG指标是BLEU[21]、METEOR[22]和ROUGE[23]分数，它们是用于评估生成的自然语言流畅性的标准指标。由于NLG指标不足以衡量临床正确性，CE指标利用14种常见疾病类型标签来计算F1、精度和召回率与基本事实和报告的关系，从而定量衡量临床正确性。

B.实施细节

对于解剖检测，我们没有直接使用Faster R-CNN[16]特征，以避免过耦合。相反，我们汇集和转换区域特征，以确保检测性能。我们提取了29个区域和1024维的视觉特征作为生成的输入。分类器使用三个FC层(1024-512-128-1)和ReLU激活来处理非线性。句子生成器有三个8头的注意层，每个注意层有512个单元。我们在一个NVIDIA 3090 GPU上训练了三个阶段的所有模块:首先，训练解剖检测;然后对两个分类器进行相加和训练;最后，添加并训练句子生成器。
重要的是，每个新模块与先前训练的模块同时训练，以保持性能。集成模块使用固定的GPT-4，无需单独训练。所有模块都采用混合精度、AdamW优化器、学习率衰减和提前停止策略。

Ⅴ 总结

我们提出了一种结构化报告生成模型，利用预训练的大型语言模型LLM，通过解剖区域和临床背景提示来实现高可解释性和互动性。首先，我们引入了解剖结构检测，建立了结构化的以解剖为中心的视觉描述，这是一个新的贡献。其次，通过交互式文本提示和大型语言模型，我们实现了面向不同临床背景的医生指导，这在先前的工作中也缺乏。我们强调报告结构和过程的可解释性和互动性，并在相关指标上表现出色，这有助于解决该领域中普遍存在的限制问题。