2021：多任务预训练的跨模态自注意力的医学视觉问答Cross-Modal Self-Attention with Multi-Task Pre-Training for Medical VQA

最新推荐文章于 2025-02-21 16:40:04 发布

weixin_42653320

最新推荐文章于 2025-02-21 16:40:04 发布

阅读量4.1k

点赞数 6

分类专栏：视觉问答文章标签：深度学习计算机视觉

本文链接：https://blog.csdn.net/weixin_42653320/article/details/118380578

版权

本文提出了一种多任务预训练的跨模态自注意力方法，应用于医学视觉问答（VQA），通过预训练和CMSA模块提升模型在理解医学图像和问题上的表现，尤其在VQA-RAD数据集上取得最佳性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要

由于缺乏标签的数据，现有的医学视觉问答往往依赖于转移学习获取图像特征表示，使用视觉和语言特征跨模态融合实现与问题相关的答案预测。这两个阶段单独执行，没有考虑预训练特征的跨模态融合的相容性和适用性。因此我们将图像特征预训练重新定义为一个多任务学习范式，迫使它考虑到特定图像理解任务中特征的适用性。此外，我们引入了一种跨模态自注意力模块（CMSA）有选择的捕捉长期的上下文相关性，以更有效的融合视觉和语言特征。实验结果表明该方法优于现有的先进方法。

原文

代码

一、介绍

医学VQA的常见设置是从最适合问题和图像的答案集中检索答案。由于期望VQA系统不仅能为临床医生提供决策支持，还能帮助患者基于医学图像更好理解病情，因此几个医学VQA数据集被提出。相比于自然图像的VQA，医学VQA有几项独特的挑战：医学术语的语义解析、由于低对比度而更复杂的跨模态语义对齐和融合、以及医学图像的多模态特征（如CT、MRI、X射线）。

基于以上问题，我们建议将图像特征预训练重新表述为一个多任务学习范式，迫使其考虑特定图像理解任务和跨模态融合模块中特征的适用性。使用外部数据已经被证明能够更好战胜医学VQA数据稀缺的问题，其次一个跨模态自注意力模块（CMSA）通过学习和利用它们的长期上下文相关性，有效地融合跨模态特征，通过上下文信息的增强和互补，有效地补偿了医学图像中的低对比度和弱局部特征表示。最后，我们在VQA-RAD数据集上实现了最先进的性能。

二、相关工作

2.1 视觉问答

Anderson et al提出一种bottom-up机制通过Faster R-CNN提取目标表示，在VQA和图像标注实现了很大的成功。跨模态特征融合的方法主要分为两类，基于注意力的方法和多模态联合嵌入。

对于医学VQA，目前常用方法是使用CNN进行图像特征表示，利用LSTM或Transformer的方法提取问题特征。将一般的跨模态融合策略（如SAN、BAN、MFB）应用于特征融合，然后进行答案预测。医学VQA需要理解医学术语且关注图像中相应的视觉内容，但现有的医学VQA方法借鉴一般的VQA技术，造成预测精度的瓶颈。

2.2 转移学习

医学VQA数据的局限使得许多工作依靠转移学习获得图像特征表示。[5, 14, 22, 25]中使用在ImageNet上预训练的CNN来编码医学图像，如VGGNet和ResNet。Allaouzi et al.[3]利用胸部射线的大型数据集CheXpert[11]来预训练一个DenseNet-121作为视觉特征编码器。Nguyen et al.[17]利用大规模的未标记的医学图像通过重建任务对其无监督去噪自动编码器进行预训练。然而，目前还没有任何工作试图考虑预先训练好的跨模态融合特征的兼容性和适用性，这是VQA模型的重点。

三、方法

最低0.47元/天解锁文章