文献阅读(二)

**

PromptMRG: Diagnosis-Driven Prompts for Medical Report Generation

**

Paper: link
Code: 暂无

Abstract

医学报告自动生成(MRG)具有重要的研究价值,因为它有可能减轻放射科医生撰写报告的沉重负担。尽管最近取得了进展,但由于需要精确的临床理解和疾病识别,准确的MRG仍然具有挑战性。此外,疾病分布的不平衡使得挑战更加突出,因为罕见疾病在训练数据中的代表性不足,使得其诊断不可靠。为了解决这些挑战,我们提出了诊断驱动的提示医疗报告生成(MRG),一个新的框架,旨在提高诊断的指导下,诊断意识提示MRG的诊断准确性。具体地,MRG是基于具有额外疾病分类分支的编码器-解码器架构。生成报告时,分类分支的诊断结果将转换为标记提示,以明确指导生成过程。为了进一步提高诊断的准确性,我们设计了跨模态特征增强,它从数据库中检索类似的报告,通过利用来自预训练的CLIP的知识来帮助诊断查询图像。此外,疾病不平衡的问题是通过应用一个自适应的logit调整损失的分类分支的基础上,每个疾病的个人学习状态,克服了文本解码器的障碍,无法操纵疾病分布。在两个MRG基准上的实验表明了所提出的方法的有效性,其中它在两个数据集上都获得了最先进的临床疗效性能。

Introduction

医学图像的自动化分析涉及广泛的任务,例如异常检测,疾病分类,病变检测,地标检测等。其中,医学报告生成(MRG)是生成医学图像的自由文本描述的任务,它提供了图像内容的综合摘要。由于其在减轻放射科医生的繁重工作量的潜力,在最近几年有许多MRG任务提出。
然而,生成准确的医疗报告是具有挑战性的,因为它需要对给定图像的全面理解,特别是识别临床发现的能力。例如,图1(a)显示了胸部X射线的两个样本预测以及地面实况(GT)。虽然第一个预测的措辞与GT高度相似,但其关于混浊和肺炎的诊断是不正确的。相比之下,第二种预测是首选的,因为它成功地识别了混浊和肺炎,尽管措辞不同。因此,一个理想的MRG系统应该能够准确地识别异常,然后将发现转换为具有语言精度和临床相关性的文本
在这里插入图片描述
为了获得性能令人满意的MRG系统,人们提出了各种方法。例如,知识图是一种通过向模型中注入领域知识来增强特征学习和诊断能力的有效技术(Zhang et al. 2020; Liu et al. 2021a);多任务学习也被广泛用于获得更好的特征表示,其中同时进行额外的辅助任务(Jing,Xie和Xing 2018; Wang et al. 2022; Yan和Pei 2022)。尽管取得了成功,但最先进的(SOTA)方法仍然缺乏生成诊断正确报告的能力。如图1(b)所示,我们的观察结果证明,在临床疗效(CE)的F1评分方面,vanilla疾病分类模型显著优于大多数SOTA MRG方法。在MRG中,CE用作评估生成报告的诊断准确性的指标。因此,该图表明现有的MRG方法没有充分利用医学图像中的诊断信息,这是MRG应用的障碍。此外,疾病的偏倚分布导致CE性能不平衡(见图1(c))。然而,这个问题在之前的工作中尚未得到解决,这进一步降低了当前MRG模型的临床价值,因为它们对罕见疾病的诊断不可靠。
基于上述研究,提出了一种基于诊断驱动提示(DDP)的MRG框架PromptMRG,旨在以诊断结果为指导,提高MRG的CE性能.具体而言,基于编解码器架构,PromptMRG还配备了疾病分类分支。生成报告时,分类分支的诊断结果将转换为标记提示,以明确指导生成过程。为了进一步提高诊断的准确性,我们设计了跨模态特征增强(CFE),利用预先训练好的CLIP模型,从数据库中检索相似的报告,以辅助查询图像的诊断。此外,该算法还通过自适应疾病均衡学习(SDL)来明确解决疾病不均衡问题,即根据不同疾病的学习状态自适应地调整其优化目标。在两个MRG测试数据集上的实验结果表明了该方法的有效性,在两个测试数据集上都获得了SOTA CE性能.我们将贡献总结如下。

本文提出了一个新的MRG框架,它利用疾病分类分支通过令牌提示来指导报告生成过程,使模型能够生成诊断正确的报告。我们通过两个基准测试证明了它的优越性,在两个数据集上都获得了SOTA CE性能。

  • 特征增强模块被设计为通过利用来自用于相似记录检索的预训练的基础模型的多模态知识来提高疾病分类性能。
  • 提出了自适应疾病平衡学习方法,通过在分类分支中引入自适应logit调整损失,克服了文本解码器无法控制疾病分布的障碍,解决了疾病间学习不平衡的问题。

Related work

Medical Report Generation

医学报告生成由于两种任务的相似性,大多数MRG模型采用了来自图像字幕的编码器-解码器架构(Xu等人,2015; Lu等人,2017; Ji等人,2021)。然而,MRG比字幕更具挑战性,因为报告比字幕长得多,而临床异常比自然对象更难识别。因此,科学家提出了很多办法和策略以解决上述问题.Chen等人(2020)和Yang等人(2023)提出了额外的存储模块来记录过去的相似模式,以便在解码过程中提供信息内容,从而可以提高生成性能。本文提出的CFE也检索相似记录作为额外信息,但不同的是,它利用这些信息来增强疾病分类分支,而不是生成过程。知识图已被广泛用于整合领域知识以辅助报表生成。例如,Zhang et al.(2020)和Liu et al.(2021 a)提出联合收割机图神经网络组合预先构建的图来表示疾病和器官之间的关系,这允许异常的专用特征学习。后来,Li等人(2023年)开发了一种通过动态注入新知识来动态更新图的方法。Huang,Zhang,and Zhang(2023)设计了一个注入式知识提取器,将症状图中的知识融合到最后的解码阶段,与我们的DDP具有相似的精神。然而,DDP通过不同的指导机制(即,提示),并在CE中表现出更强的性能。多任务学习是促进MRG表征学习的另一种常用技术。在辅助任务中,疾病分类是最常用的一项,因为它有助于模型学习区分特征(Jing、Xie和Xing 2018; Wang et al. 2022; Yan和Pei 2022)。类似地,Yan等人(2021)引入了弱监督对比学习,作为学习语义上有意义的空间的辅助任务。此外,还探索了图像-文本匹配(Wang et al. 2022,2021; Yan and Pei 2022),以便以细粒度方式学习对齐的图像-文本表示。尽管在本研究中使用了疾病分类,但我们强调了以下关键差异。以往的分类方法往往将分类作为一个并行的任务来处理,并期望它通过学习区分特征以隐含的方式有利于报告的生成。相比之下,我们通过提示使用分类的诊断结果来明确地指导生成过程。RGRG(Tanida et al. 2023)是与我们最相关的工作,它利用对象检测器作为句子生成的区域指导。然而,他们的解码器只关注区域视觉特征,而我们的解码器既关注视觉特征又关注提示,其中提示使解码器能够明确地利用诊断信息来生成临床正确的报告。提示作为指导提示最初是一种来自自然语言处理的技术,用于提高语言模型的泛化能力(Liu et al. 2023)。在有监督学习中,不需要对各个任务分别进行训练,而可以采用

Prompt as Guidance

提示最初是一种来自自然语言处理的技术,用于提高语言模型的泛化能力(Liu et al. 2023)。在监督学习中,提示不是单独训练各种任务,而是通过修改文本模板中的输入,使语言模型能够统一并适应广泛的任务。现在一些工作(Li和Liang,2021; Lester、Al-Rfou和Constant,2021; Liu等人,2021 b)采用了该技术进行有效的微调,其中提示充当可训练的任务特定向量。由于其有效性和简单性,将快速调谐进一步引入视觉(Jia等人,2022)和视觉-语言模型(拉德福等人,2021; Zhou等人,2022; Tsimpoukelli等人,2021; Alayrac等人,2022)。最近,有一些工作将提示作为提高特定任务性能的指导。例如,Qin等人(2023)开发了一种医学提示的自动生成方法,以提高预训练的视觉语言模型对医学对象检测的知识可传递性。Ge等人(2022)提出将领域信息嵌入提示中,以进行无监督的领域适应。本文将诊断结果转换为提示信息,以指导报表的生成。

Methodology

在这里插入图片描述

整体架构:融合视觉与诊断信息

PromptMRG 遵循主流的编码器 - 解码器架构。编码器承担着提取图像视觉特征的重任,它会将输入的图像转化为一系列特征块X,这里的,其中c代表特征维度,而S则是特征块的数量。这些视觉特征就像是图像的“密码”,蕴含着丰富的信息。
在这里插入图片描述
解码器则是根据这些视觉特征以及来自疾病分类分支的诊断驱动提示来生成医学报告。报告被表示为R,其中每个都是词汇表V中的一个词,T为报告的长度。在生成报告的过程中,解码器会在每个时间步t预测下一个词rt,其依据是已生成的词r1,r2,…,rt-1、图像的视觉特征X以及诊断驱动提示d1,…,dL。
在这里插入图片描述
整个模型的训练使用语言建模损失Llm来优化,这个损失函数衡量了预测词与真实词之间的差异,通过最小化这个损失,模型能够学习到如何生成更准确的报告。
在这里插入图片描述

诊断驱动提示(DDP):引导解码器生成准确报告

目的

本文发现现有模型在生成具有满意临床疗效的报告方面存在明显的短板。通过实验对比,普通疾病分类模型在 F1 分数上远远超过了大多数最先进的(SOTA)医学报告生成(MRG)方法,这清楚地表明了现有 MRG 模型在生成诊断准确报告方面的能力亟待提高。
在这里插入图片描述

实现

为了弥补这一缺陷,PromptMRG 引入了诊断驱动提示(DDP)。疾病分类分支在这个过程中发挥着关键作用,它以经过跨模态增强后的平均池化视觉特征作为输入,然后通过个分类头输出分类结果。这里的分类任务是一个 4 类分类,包括 “Blank”(未提及)、“Positive”(阳性)、“Negative”(阴性)和 “Uncertain”(不确定)。分类标签的获取借助了 CheXbert 工具,它能够将报告转换为 14 种预定义的疾病标签,模型在训练时使用标准的交叉熵损失。
在推理阶段,分类结果会被巧妙地转换为 token 提示。具体来说,我们向词汇表中添加了四个特殊的 token:[BLA]、[POS]、[NEG] 和 [UNC],它们分别对应上述的四类分类结果。这样一来,解码器在生成报告时就能够明确地参考这些提示,从而生成具有更高临床疗效的报告。
此外,我们还充分利用了大语言模型(LLMs)的强大能力来获取更多的辅助信息。以 Vicuna - 13B 为例,我们向其提供与疾病相关的提示,以此来查询四个辅助异常(Aorta、Bone/Spine、Hemidiaphragm、Lung Volume)的标签。这些额外的标签信息有助于更全面、准确地诊断疾病,进一步提高报告生成的质量。

跨模态特征增强(CFE):借助外部信息强化分类特征

目的

在实际的医学诊断中,医生通常不仅仅依靠医学图像本身,还会参考其他相关的文档,如患者信息和诊断数据库。受此启发,PromptMRG 中的跨模态特征增强(CFE)模块旨在通过引入额外的信息来增强疾病分类的能力。
在这里插入图片描述

实现

CFE 首先利用在 MIMIC 训练集上预先训练好的 CLIP 模型进行跨模态检索。对于给定的图像I,CLIP 模型能够从报告数据库中找到与之最相似的前k个报告特征X‘。接下来,这些检索到的特征会通过一个动态聚合(DA)模块进行处理。DA 模块的核心是 Transformer 注意力机制,它先对X‘进行自注意力操作,然后将输出作为交叉注意力层的键和值,而图像的平均池化视觉特征xv则作为查询。通过这种方式,DA 模块能够动态地根据视觉特征提取出最相关的报告特征,并将其聚合为一个嵌入表示。最后,这个嵌入表示会与原始的视觉特征xv进行拼接,得到增强后的特征xE,用于后续的疾病分类任务。需要注意的是,在训练过程中,DA 模块是可训练的,而 CLIP 模型则保持冻结状态,这样可以确保在利用 CLIP 模型强大的跨模态表示能力的同时,又能根据具体任务对 DA 模块进行优化。在这里插入图片描述

自适应疾病平衡学习(SDL):解决疾病学习不平衡问题

目的

在医学领域,疾病的分布往往是不平衡的,有些疾病较为常见,而有些则非常罕见。这种不平衡现象给医学报告生成带来了巨大的挑战,因为传统的文本解码器对疾病不敏感,它在生成报告时仅仅基于词的可能性,而无法区分不同疾病的重要性,这使得在训练过程中,常见疾病能够得到较好的学习,而罕见疾病的学习效果则很差,导致对罕见疾病的诊断不可靠,严重影响了 MRG 模型的临床应用价值。

实现

为了解决这一问题,PromptMRG 提出了自适应疾病平衡学习(SDL)算法。SDL 的核心思想是根据每个疾病的学习状态自适应地调整其学习目标。具体来说,它引入了 logit - 调整损失,在优化过程中,对于罕见疾病,通过降低其 logits 值,鼓励模型更多地关注和学习这些疾病。对于给定的疾病D,其针对 “Positive” 标签的 logit - 调整损失被精心设计,而非 “Positive” 标签的损失则保持为标准的交叉熵损失。
同时,为了准确评估每个疾病的学习状态,SDL 利用了预测分数这一指标。在训练过程中,每个疾病在验证集上的平均预测分数被记录下来,这些分数被用于自适应地更新疾病的类分布Π。初始时,Π根据训练数据的统计信息进行初始化,然后在每个训练 epoch 结束后,根据验证集上的预测分数进行更新。这样,模型就能根据疾病的实际学习情况动态调整其优化目标。最终,模型的总训练损失由语言建模损失LLM和 SDL 损失LSDL组成,两者通过平衡系数λ进行权衡,确保在提高疾病分类平衡的同时,不影响报告生成的整体质量。
通过以上各个模块的协同工作,PromptMRG 为医学报告生成提供了一种创新且有效的解决方案,有望在未来的医疗领域中发挥重要作用。

在这里插入图片描述

Results

与 SOTA 方法对比

在 MIMIC - CXR 和 IU X - Ray 数据集上,PromptMRG 在临床疗效(CE)指标(精确率、召回率、F1 值)上均取得了最先进的(SOTA)性能,显著优于大多数现有方法。例如,在 MIMIC 数据集上,PromptMRG 的 F1 分数达到了0.476,相比近期的方法 DCL(F1=0.373)有10%的绝对提升,比 KiUT(F1=0.321)提升了15%,即便与之前最好的方法 RGRG(F1=0.447)相比,也有2.9%的绝对提升。同样,在 IU X - Ray 数据集上,PromptMRG 的表现也远超其他方法,其绝对提升超过 RGRG 达3.1%。
在这里插入图片描述

在自然语言生成(NLG)指标(BLEU、METEOR、ROUGE - L)方面,PromptMRG 同样具有竞争力。在 IU 数据集上,它在所有 NLG 指标上都表现最佳;在 MIMIC 数据集上,BLEU - 1 指标也是最好的。然而,在 MIMIC 数据集的其他 NLG 指标上,PromptMRG 的表现不如 IU 数据集。经过分析,推测这是由于诊断驱动提示(DDP)的影响。研究发现,没有 DDP 的模型比有 DDP 的模型更倾向于从训练数据中生成高频短语,尤其是在生成较长报告时(MIMIC 报告平均长度约为 IU 的两倍)。由于 NLG 指标通过词匹配来评估预测和参考之间的语言一致性,所以生成高频短语更多的模型在 NLG 指标上表现更好,这就导致了使用 DDP 后,虽然提高了诊断准确性,但在一定程度上降低了 NLG 性能。

消融实验

为了验证每个模块的有效性,在 MIMIC 测试集上进行了消融实验。结果显示,基线模型仅能达到一般的 CE 性能(如 F1=0.370)。当添加 DDP 后,F1 分数显著提高到0.444,这表明 DDP 在生成诊断正确的报告方面非常有效。添加辅助疾病标签(ADL)后,CE 结果进一步受益,F1 分数提升至0.451。接着,当应用跨模态特征增强(CFE)和自适应疾病平衡学习(SDL)时,F1 分数分别提高到0.464和0.468。最终,使用所有模块时,获得了最佳的 F1 =0.476。在这里插入图片描述

从对精确率和召回率的影响来看,ADL 和 CFE 对两者均有提升,而 SDL 对召回率的提升更为显著。这与 SDL 的机制有关,它鼓励模型在召回正例时更多地学习较少学习的疾病。另一方面,使用 DDP 会使 NLG 性能平均下降约0.8%。通过对生成报告的 N - gram 统计分析发现,与使用 DDP 的模型相比,基线模型更有可能重复训练集中的高频短语。推测这是因为 DDP 在生成过程中提供了额外的诊断信息,使得生成的文本更加多样化,从而减少了对高频短语的依赖,导致 NLG 性能下降。当进一步添加 CFE 和 SDL 后,NLG 性能有所提高,但除 BLEU - 1 外,仍低于基线模型。总体而言,所提出的模块在以略微降低 NLG 性能为代价的情况下,显著提高了 CE 性能。

定性结果分析

通过一个定性示例展示了 PromptMRG 相对于基线模型的优越性。在该示例中,蓝色字体表示与真实标签(Ground - Truth)一致的诊断内容,红色字体表示错误的内容。可以看到,PromptMRG 能够覆盖真实标签中的大多数关键描述,例如,它正确预测了心脏病、不透明度、水肿、肺不张等疾病的阳性情况,以及支持设备位置不变等信息,仅在胸腔积液的预测上出现了一次错误。相比之下,基线模型无法准确预测疾病,出现了如假阳性的心脏病纵隔、胸腔积液和肺炎等情况,同时遗漏了心脏病和不透明度等关键信息。在这里插入图片描述

为了理解 DDP 如何提高诊断准确性,可视化了提示的注意力权重。结果发现,在预测某些单词时,对相关疾病 token 的注意力远远大于其他 token,这表明 token 提示在生成过程中确实为解码器传递了有用的诊断信息,从而帮助模型生成更准确的报告。

不同类型提示比较

对于诊断驱动提示(DDP),除了提出的 token 提示外,还探索了其他类型的提示进行比较。文本提示直接将分类结果转换为文本,例如,肺炎的阳性结果表示为 “Pneumonia: Positive;”。实验结果表明,文本提示的性能虽然令人满意,但在所有指标上略逊于 token 提示。在这里插入图片描述

特征提示使用分类分支前的平均池化特征作为提示,理论上应该具有判别性,但实验结果显示,其 CE 指标比基线模型更差(例如,F1 分数降低了1.3%),这意味着解码器无法从特征提示中提取有效的诊断信息。
嵌入提示可以看作是特征提示的显式版本,它将分类结果明确编码为数字嵌入。例如,对于第i个疾病,如果未提及则第i维表示为1,如果为阳性则表示为2,以此类推。由于嵌入的维度通常多于疾病数量,剩余维度用零填充。尽管嵌入提示的性能不如 token 和文本提示,但它显著提高了 CE 性能(例如,F1 分数增加了6.4%),这表明明确表示诊断信息对于有效的提示指导至关重要。

疾病平衡评估

为了评估 SDL 在解决疾病不平衡问题上的效果,绘制了有无 SDL 时所有疾病的 F1 分数直方图,其中疾病按照训练数量的升序排列。结果显示,在 SDL 的帮助下,罕见疾病的性能得到了大幅提高,七个罕见疾病的平均绝对改进约为8%,部分疾病甚至提升超过12%,如胸膜其他疾病和肺炎。对于常见疾病,部分疾病的性能也有所提升(如水肿和肺不张),而部分则略有下降(如肺部不透明度)。尽管罕见疾病的性能有了很大提升,但平均 F1 分数仅增加了1.2%。这表明当前基于示例的 CE 指标未能充分反映疾病的平衡性,因为常见疾病在指标计算中具有更大的权重。因此,虽然罕见疾病的性能有了显著提高,但平均 F1 分数的提升相对较小。为了更准确地衡量疾病平衡性,可以考虑计算宏观平均 CE 指标。
在这里插入图片描述

Dataset

MIMIC - CXR

官方
下载MIMIC-CXR的具体流程
MIMIC 胸部 X 射线 (MIMIC-CXR) 数据库 v2.0.0 是一个大型公开可用的 DICOM 格式胸片数据集,带有自由文本放射学报告。该数据集包含 377,110 张图像,对应于在马萨诸塞州波士顿的 Beth Israel Deaconess Medical Center 进行的 227,835 项放射学研究。
我们查询了 2011 年至 2016 年间在急诊科进行的胸部 X 线研究的 BIDMC EHR,并提取了与这些研究相关的患者标识符集。随后,我们提取了 2011 年至 2016 年间这组患者的所有胸部 X 线检查。出于匿名目的,生成了两组随机标识符。首先,为每位患者生成一个 10,000,000 - 19,999,999 范围内的随机标识符,我们将其称为 。每位患者还被分配了一个日期偏移,将他们的第一个指数入院年份映射到 2100 - 2200 年之间的年份。这确保了数据的匿名性,同时保留了患者信息的相对时间顺序,这对于适当处理数据至关重要。其次,每个报告都与一个唯一标识符相关联。我们为每个研究生成了一个随机标识符,范围为 50,000,000 - 59,999,999。我们将匿名研究标识符称为 .由于多张图像可能与同一研究相关联(例如,一张正面图像和一张侧向图像),因此 MIMIC-CXR 中的多张图像具有相同的 .最后,为每个单独的图像文件生成一个随机的 40 个字符的哈希值。这些哈希值对于每个图像都是唯一的。

IU X - Ray

官方链接
飞桨链接

印第安纳大学胸部x射线收集(IU x射线)是一组胸部x射线图像与其相应的诊断报告配对。该数据集包含7,470对图像和报告(6470:500:500)。
每份报告由以下部分组成: impression, findings, tags, comparison, and indication。平均每个图像包含2.2个标签,5.7个句子,每个句子包含6.5个单词。
此外,我们发现前1000个单词覆盖了数据集中99.0%的单词出现率,因此我们只在字典中包含前1000个单词。

Conclusion

在这项工作中,我们提出了一个MRG框架,以解决不满意的CE的问题,从疾病分类分支的诊断结果转换为提示,以指导报告的生成。为了进一步提高诊断准确率,提出了CFE模块,通过跨模态检索和动态聚合来增强特征。此外,SDL的发展,以减轻疾病之间的不平衡的学习,通过单独调整学习目标的每一种疾病的基础上,其独特的学习状态。在两个数据集上的实验证明了该方法的优越性,特别是在生成诊断正确的报告方面,弥补了当前MRG模型与实际临床需求之间的差距。虽然这些实验是基于胸部X光片,但我们的方法可能适用于其他模式。

**然而,有几个问题需要解决。**首先,需要疾病标签来训练分类分支。幸运的是,大多数MRG数据集都包含这样的标签。在没有提供标签的情况下,可以使用无监督聚类算法将报告分组为有意义的聚类。其次,CFE中的CLIP需要足够数量的图像-报告对用于域自适应,这对于具有有限数据的域来说可能是具有挑战性的。FFA-IR(Li et al. 2021)是一个理想的数据集,可以在眼底图像上验证我们的方法,因为它的规模很大,疾病多样性很大,我们将其留给未来的工作。此外,我们将利用更丰富和细粒度的信息进行提示,这可能有利于语言精度和诊断准确性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值