(五十七):Deep Modular Co-Attention Networks for Visual Question Answering
- 出处: CVPR 2019: 6281-6290
- 代码:https://github.com/MILVLG/mcan-vqa
- 题目:面向视觉问答的深度模块化共同注意网络
- 主要内容:本文提出了一种VQA的深度模块化协同注意网络(MCAN)。MCAN由模块化共注意层(MCA)级联组成,每个层都由自注意和引导注意单元组成,以协同建模模态内部和模态间的相互作用。通过使用编码器-解码器策略对MCA层进行深度叠加。
Abstract
视觉问答(VQA)要求对图像的视觉内容和问题的文本内容都有精细的、同时的理解。因此,设计一个有效的“共同注意”模型,将问题中的关键词与图像中的关键对象联系起来,是VQA表现的核心。
迄今为止,大多数共同注意学习的成功尝试都是通过使用浅层模型实现的,而深度共同注意模型与浅层模型相比几乎没有改善。
在本文中,我们提出了一种深度多模态共注意网络(MCAN),它由深度级联的模共注意层组成。每一个MCA层都使用两个基本注意单元的模块组成来模拟问题和图像的自我注意,以及问题引导的图像注意。
我们在基准VQA-v2数据集上定量和定性地评估了MCAN,并进行了广泛的消融研究,以探索MCAN有效性背后的原因。实验结果表明,MCAN的性能明显优于以往的先进技术。我们最好的单一模型在测试开发集上提供了70.63%的整体准确性。
1. Introduction
连接视觉和语言的多模态学习受到了计算机视觉和自然语