【文献阅读002】R2GenGPT: Radiology Report Generation with frozen LLMs(静态LLM用于放射学报告生成)

年份:2023
作者:Zhanyu Wang, Lingqiao Liu, Lei Wang, Luping Zhou
期刊:meta-radiology
文章链接:https://arxiv.org/abs/2309.09812
github链接:https://github.com/wang-zhanyu/R2GenGPT
关键词:放射学报告、生成大型语言模型、LLAMA

ABSTRACT

大型语言模型(llm)在应用于各种语言任务时一直显示出卓越的泛化能力。尽管如此,挖掘大语言模型在放射学报告生成(R2Gen)中的全部潜力仍然是一个挑战,这源于大语言模型和R2Gen任务之间固有的模式差异
为了有效地弥合这一差距,提出了R2GenGPT,使用高效的视觉对齐模块将视觉特征与llm的词嵌入空间对齐。这种创新的方法使以前静态的LLM能够无缝集成和处理图像信息,标志着优化R2Gen性能向前迈进了一步。R2GenGPT提供了以下好处。首先,它通过只训练轻量级视觉对齐模块而固定LLM的所有参数来获得最先进的(SOTA)性能。其次,它具有很高的训练效率,因为它需要训练非常少的参数,同时实现快速收敛。通过使用delta调优,我们的模型只训练5个参数(仅占总参数数的0.07%)来实现接近SOTA水平的性能。

1. Introduction

1.1. Background

自动化放射报告生成有望减轻放射科医生的负担,减少诊断错误,并加快临床工作流程。
医学报告生成领域的大多数方法采用编码器-解码器范式[15、32、33、38、44、48],并针对R2Gen任务的独特特征进行了具体改进。
目前,R2Gen任务的两个主要挑战。

  • 长文本生成。医疗报告生成需要详细且连贯的段落描述,这要求模型具有学习远程依赖关系的强大能力。
  • 视觉和文本数据的偏见。由于训练数据中正常样本的过度代表,模型的学习过程偏向于这些样本,限制了其有效检测数据集中异常和异常的能力。

对于长文本生成,LLMs具备对语法、句法和语义连贯性的内在理解,使它们非常适合需要生成扩展文本的任务,例如医学报告。此外,它们在上下文建模方面的熟练能力使它们能够在整个长篇报告中保持一致性和相关性。至于由医学数据集中正常样本过多而产生的偏见,LLMs可以作为潜在的修正因素,因为它们具备广泛的知识库。经过大量数据的训练,LLMs展示出了强大的鲁棒性,并且不太容易受到数据不平衡的影响。它们甚至能够处理许多零样本任务。此外,当前缓解偏见的方法涉及整合外部知识,而预训练的LLMs天生具备丰富的信息知识。
将llm应用于R2Gen的关键一步是弥合视觉信息和文本生成之间的差距
提出了R2GenGPT,并探索了三种将视觉特征与大型语言模型对齐的方法。我们首先使用视觉编码器处理胸部x射线图像以获得视觉嵌入。然后通过Visual Mapper将这些嵌入映射到LLM的特征空间,以确保统一的尺寸。为了确定与LLM对齐视觉特征的最有效方法,我们精心设计了三个对齐模块:1)浅对齐,其中只有视觉映射器被训练,其他参数保持固定;2)深度对齐,视觉编码器和视觉映射器同时训练;3) Delta对齐,其中视觉映射器和来自视觉编码器的有限增量参数集被训练,以确保有效性和效率。

贡献

  • 提出了一种新的基于llms的放射学报告生成(R2Gen)框架,称为R2GenGPT。这标志着在R2Gen任务中利用预训练的大型语言模型(llm)的第一个实例,并对两个经常使用的基准数据集进行了全面的比较。
  • 探索了三种具有不同级别可训练参数的方法将图像模态与大语言模型连接起来,即:浅对齐、delta对齐和深对齐,使LLM能够有效地处理视觉信息。

1.2. Relate works

1.2.1. 放射学报告生成

  • 提高长文本生成的性能
  • 整合外部知识信息来减轻数据偏差(知识图谱+多任务学习)

1.2.2. 大型语言模型

大预言模型的历史工作,详见原文

2. Material and methods

2.1. 数据收集

数据集使用:IU-Xray7和MIMIC-CXR14

2.2. 方法

2.2.1. 概述

如图1所示,R2GenGPT包括**一个可视编码器、一个可视映射器和一个LLM(大语言模型)**组件。

  • 视觉编码器用于从胸部x射线图像中提取信息。
  • 视觉映射器用于将低维图像特征投影到LLM的高维特征空间中。
  • LLM利用胸部x线图像的视觉特征生成相应的诊断报告。
    在这里插入图片描述
    在这里插入图片描述

2.2.2. 功能定位

对于输入的胸部x射线图像Xv,我们将预训练的Swin Transformer[23]作为视觉编码器,它提供视觉特征Zv=(Xv;θv),其中θv为Swin变压器的参数。我们的实验利用了最后一层transformer的网格特征。我们考虑一个简单的线性层作为视觉映射器,将图像特征连接到LLM的词嵌入空间中。具体来说,我们使用一个可训练的投影矩阵Wm将Zv转换为语言嵌入标记Hv,它们在大语言模型中具有与词嵌入空间相同的维数。
在这里插入图片描述
在提取视觉标记Hv之后,我们提出了以下三种不同的训练策略,通过改变可训练参数的水平来确定最有效的对齐方法(图2)。
在这里插入图片描述
在这里插入图片描述

  • 浅对齐:在这种模式下,我们固定了预训练的Swin变压器的参数,只训练线性视觉映射器,用Wm表示。
  • 深度对齐:对于这种方法,Swin Transformer和Visual Mapper都是联合微调的。具体来说,来自视觉编码器(Swin Transformer)和视觉映射器的参数,分别表示为θv和Wm,被更新。
  • Delta对齐:由于本文中使用的Swin Transformer最初是在自然图像上进行训练的,因此浅对齐方法阻碍了模型捕获高质量射线图像特征的能力。另一方面,采用深度对齐会极大地影响模型的训练效率。因此,我们提出delta对准,使用LoRA.8对Swin变压器模型进行参数有效微调。在我们的实现中,我们只调整Swin Transformer中的查询和值投影,以优先考虑一个简单而高效的模型。训练得到的参数标记为Δθv,Δθv和Wm均在这种模式下进行训练。

2.2.3. 大型语言模型

大型语言模型组件采用Llama2-7B模型。
给定一张胸部x光图像Xv和相应的报告Xr,输入到Llama2的详细提示如下。
在这里插入图片描述
这里Xp是我们为R2Gen任务设计的指令提示符。
在我们目前的实现中,Xp=“为这个胸部x光图像生成一个全面而详细的诊断报告”。对于这个提示符,在将其输入LLAMA2进行计算之前,Xv将被Hv使用公式1处理的视觉标记替换,而所有其他文本将使用LLAMA的标记器被标记为单词标记。

2.2.4. 损失函数

我们只在报告令牌上执行LLM的指令调优,使用其原始的自动回归训练目标。具体来说,对于长度为L的报告,以视觉信息Xv和指令提示Xp为条件,我们的损失函数被捕获为负对数似然,表示为:在这里插入图片描述
其中θ为可训练参数,Xr,<i为当前预测令牌xi之前的报告令牌。

3. Results

在这项工作中,我们利用LLAMA2-7B模型作为大型语言模型,并利用Swin Transformerb的基础版本作为视觉编码器。在LoRA的参数中,我们将LoRA的注意力维度配置为16,LoRA缩放的alpha参数也设置为16。
评估指标:

  • BLEU分数[27]和、ROUGE-L[20]、METEOR[1]和CIDEr[37]来衡量生成的文本报告的质量
  • 精确度、召回率和F1来评估模型的临床疗效指标

4. Discussion

4.1. 与SOTA的比较

4.2. 模型效率及临床疗效分析

5. Conclusions

提出了R2GenGPT,这是一个创新的框架,处于放射学报告生成(R2Gen)的前沿,它利用了大型语言模型(llm)的能力。通过对三种对齐方法(浅层、三角洲和深层)的全面探索,本研究强调了llm在提升R2Gen景观方面改变游戏规则的潜力。R2GenGPT不仅获得了具有竞争力的SOTA性能,而且显著降低了计算复杂度。这一双重成就使R2GenGPT成为自动化和改进放射学报告的有前途的解决方案。

  • 56
    点赞
  • 38
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值