一、介绍
在本文中,我们提出了一种新颖的深度关注神经张量网络(DA-NTN)用于视觉问题回答,它可以发现基于张量表示的图像,问题和答案之间的联合相关性。
首先,我们通过双线性特征对成对交互(例如,图像和问题)中的一个建模,进一步用三维(例如,答案)将其编码为双线性张量积的三元组。
其次,我们通过不同的答案和问题类型分解不同的三元组的相关性,并进一步在张量上提出一个切片式注意模块,以选择最具判别力的推理过程进行推理。
第三,我们通过学习带有 KL 散度损失的标签回归来优化建议的 DA-NTN。这样的设计使得可扩展的训练和在大量答案集上的快速收敛成为可能。
在这篇论文中我们将答案嵌入学习引入到我们的方法中,有三个目的。首先,我们希望对问题答案三元组之间的关系进行建模,以帮助推理。其次,答案嵌入可能会纠正问题的误解,尤其是对于复杂的句法结构的问题。第三,答案嵌入可以帮助确定问题的类型并决定使用哪种推理过程。
二、模型
2.1开放式可视问答框架的体系结构
红色框中的结构是生成问题表示Vq和图像与问题特征向量Vqi融合的基本模型,两个蓝盒中的结构是我们提出的深层关注神经张量网络,利用蓝盒神经张量网络来度量图像-问题-答案三元组之间的相关性。
VQA任务的目标是提供一个给出图像 I ∈ I(张量)和相应的问题 q ∈ Q(张量),先前的大部分工作都把开放的VQA看作是一项分类任务:
其中θ表示模型的全部参数集,A(张量)为