中文名:“SERPENT-VLM: 自我完善的视觉语言模型用于放射学报告生成”
年份:2024
Manav Nitin Kapadnis, Sohan Patnaik, Abhilash Nandy, Sourjyadip Ray, Pawan Goyal, Debdoot Sheet
会议:NAACL 2024(CCF-B)
Abstract
放射学报告生成(R2Gen)展示了多模态大语言模型(MLLMs)如何自动化生成准确连贯的放射学报告。现有方法常常在基于文本的报告中出现幻觉细节,这些细节并不准确反映图像内容。为了减少这一问题,我们引入了一种新颖的策略,即SERPENT-VLM(使用视觉语言模型进行自我完善的放射学报告生成),通过将自我完善机制整合到MLLM框架中,改进了R2Gen任务。
我们采用了一种独特的自监督损失,利用图像表示的汇总与生成的放射学文本的上下文表示之间的相似性,以及标准的因果语言建模目标,来完善图像-文本表示。这使得模型能够通过给定图像与生成文本之间的动态交互来审查和对齐生成的文本,从而减少幻觉,并持续增强细致的报告生成能力
1 Introduction
常用方法的R2Gen通常依赖于
- 1.大型数据集进行预训练,以传授特定领域的知识。
- 2.通常利用计算密集型编码器-解码器架构进行微调。
缺点:
- 忽略了一些细微但在临床上显著的细节
- 幻觉持续问题
在本文中,我们介绍了一个流线型管道,SERPENT-VLM,它首先处理给定的x射线图像,将其通过视觉编码器并将其映射到高维空间中的矢量表示。这个过程有助于对医学图像进行细致入微的理解。然后,编码后的图像和报告生成提示一起作为输入传递给大型语言模型(Large Language Model, LLM)以生成文本。
工作贡献总结:
- 引入自我精炼损失确保生成细致、无幻觉的放射学报告。
- 我们的系统不仅匹敌,甚至超越了领先的通用预训练医疗语言模型的性能。
- 我们的方法展示了对噪声图像输入的稳健性,保持生成全面的报告。
2 Related Work
介绍了医学报告生成、大型语言模型和视觉语言模型、反馈的来源与表达。
3 Methodology
3.1 serent - vlm概述
1)因果语言建模目标(见图2中的第4步)强制执行标准的交叉熵损失,用于监督放射学报告生成。我们的方法包括:
- 从胸部X射线图像中提取信息的视觉编码器(见图2中的第1步)
- 将低维图像特征映射到高维特征空间的视觉映射器(见图2中的第2步)
- 以及自回归地生成诊断放射学报告的大型语言模型(见图2中的第3步)。
为了进一步减少幻觉,我们构建了给定X射线图像的汇总表示,利用生成报告的注意力权重和最后的隐藏状态生成上下文表示,并通过自监督损失标准强制执行自我精炼目标(见图2中的第5步),试图最大化汇总图像表示与生成报告的上下文表示之间的相似性。我们通过这两种损失的加权组合来训练网络(见图2中的第6步),从而使SERPENT-VLM能够通过将生成的文本与输入图像对齐,持续地自我完善。
3.2 serent - vlm框架
serpt - vlm的体系结构可以划分为三个不同的模块:可视化编码器、可视化映射器和大语言模型。形式上,考虑一张胸部x射线图像Iv∈R CxHxW,其中C为输入通道数,H, W分别为图像的高度和宽度。Iv = [Iv1, Iv2,···Ivk]由k个补丁序列组成,Ivi∈R CxPxP为第i个补丁,P为补丁大小。
我们利用基于transformer的视觉编码器Venc编码并获得由Eq. 1表示的上下文表示e ~ vi∈R dv,并聚合每个编码补丁以获得由Eq. 2描述的全局图像表示e ~ v。
编码后的图像特征固有地存在于视觉特征空间中,该视觉特征空间与文本特征空间不直接兼容,因此需要与LLM的词嵌入空间对齐。为了确保这一点,我们使用一个可学习的视觉映射器Vmap来将贴片嵌入到单词嵌入空间上。
形式上,evi = Vmap(≈evi)。我们构造一个种子提示符T,指示LLM生成以图像Iv为条件的报告,并获得相应的令牌ttoken = [t1, t2,···,T | ttoken |],作为输入给LLM的Embedding模块,用于构造令牌嵌入(参见式3)。
我们将投影图像贴片嵌入序列evi与种子提示文本嵌入序列etj连接起来,得到输入嵌入序列eI = [ev;et],作为仅解码器的LLM的输入,用td表示,用于以自回归方式生成响应令牌的逻辑。Venc, Vpooler, Vmap和T D通过在生成的logits和实际响应之间强制的交叉熵损失报告进行训练。为了通过将生成的响应与输入图像对齐来进一步指导报告生成过程,我们强制执行自监督精炼损失。
3.3自精炼策略
我们构造一个聚合生成的文本表示注意利用T d的最后一层的权重考虑分对数分布为每个生成的令牌作为李∈R d, d是词汇量大小的T d编码的表示每个生成的令牌,这是进一步用于计算self-refining损失可微的方式,我们利用Gumbel-Softmax分对数分布为每个预测获得ˆ李令牌。我们构造了每个预测标记的聚合表示ep i = Pd j=1 ej p lij