摘要
由于缺乏标签的数据,现有的医学视觉问答往往依赖于转移学习获取图像特征表示,使用视觉和语言特征跨模态融合实现与问题相关的答案预测。这两个阶段单独执行,没有考虑预训练特征的跨模态融合的相容性和适用性。因此我们将图像特征预训练重新定义为一个多任务学习范式,迫使它考虑到特定图像理解任务中特征的适用性。此外,我们引入了一种跨模态自注意力模块(CMSA)有选择的捕捉长期的上下文相关性,以更有效的融合视觉和语言特征。实验结果表明该方法优于现有的先进方法。
一、介绍
医学VQA的常见设置是从最适合问题和图像的答案集中检索答案。由于期望VQA系统不仅能为临床医生提供决策支持,还能帮助患者基于医学图像更好理解病情,因此几个医学VQA数据集被提出。相比于自然图像的VQA,医学VQA有几项独特的挑战:医学术语的语义解析、由于低对比度而更复杂的跨模态语义对齐和融合、以及医学图像的多模态特征(如CT、MRI、X射线)。
基于以上问题,我们建议将图像特征预训练重新表述为一个多任务学习范式,迫使其考虑特定图像理解任务和跨模态融合模块中特征的适用性。使用外部数据已经被证明能够更好战胜医学VQA数据稀缺的问题,其次一个跨模态自注意力模块(CMSA)通过学习和利用它们的长期上下文相关性,有效地融合跨模态特征,通过上下文信息的增强和互补,有效地补偿了医学图像中的低对比度和弱局部特征表示。最后,我们在VQA-RAD数据集上实现了最先进的性能。
二、相关工作
2.1 视觉问答
2.2 转移学习
医学VQA数据的局限使得许多工作依靠转移学习获得图像特征表示。[5, 14, 22, 25]中使用在ImageNet上预训练的CNN来编码医学图像,如VGGNet和ResNet。Allaouzi et al.[3]利用胸部射线的大型数据集CheXpert[11]来预训练一个DenseNet-121作为视觉特征编码器。Nguyen et al.[17]利用大规模的未标记的医学图像通过重建任务对其无监督去噪自动编码器进行预训练。然而,目前还没有任何工作试图考虑预先训练好的跨模态融合特征的兼容性和适用性,这是VQA模型的重点。