引入
多模态注意力网络目前是设计真实图像的视觉问答(VQA)任务的现有技术模型,但是这种简单的机制不足以对复杂的推理特征或者高层次的任务进行建模。因此,本文提出了MuRel(多模态关系网络),一个能在真实图像中学习端到端推理的多模态关系网络。我们的贡献主要有两个:一是引入了MuRel单元,这是一个自动推理原语,能够表示问题和图像区域之间丰富的交互信息,它基于一个向量表示,能对区域之间的关系进行建模,也就是一种通过丰富的向量表示来对问题和图像区域间的交互进行自动推理,和对成对结合区域关系进行建模的结构;二是合并MuRel单元到MuRel网络,嵌入到迭代推理过程中去,它能够逐渐的对内部网络表示进行精化来回答问题,逐渐细化了图像和文本的交互。
背景:
1.深度学习最近处理问题:
最近,深度学习开始处理一些复杂的视觉推理问题,例如:关系检测(relationship detection)、目标识别(objection recognition)、多模态检索(multimodal retrieval)、抽象推理(abstract reasoning)、视觉因果(visual causality)、视觉对话(visual dialog)。
2.视觉推理(Visual reasoning):
关于视觉推理这个研究主要是通过CLEVR数据集,这个数据集提供了一些需要推理的简单问题。它为合成数据集,是做VQA视觉推理常用的数据集,由一些简单的几何形状构成的视觉场景。数据集中的问题总是需要一长串的推理过程,为了对推理能力进行详细评估,所有问题分为了5类:属性查询(querying attribute),属性比较(comparing attributes),存在性(existence),计数(counting),整数比较(integer comparison)。所有的问题都是程序生成的。该数据集的人为标注数据子集为CLEVR-Humans。其中处理CLEVR数据集比较好的模型有FiLM,MAC network。
3.真实数据的VQA(VQA on real data):
VQA研究最重要的一部分就是对两个空间向量的高层次关系进行表示,在目前的多模态融合机制里,最受欢迎的是二阶交互(second order interaction)或者是张量分解(tensor decomposion)。在VQA关系推理中,最常使用的推理框架是软注意力机制(soft attention),给定一个问题,模型可以标注每个区域的重要程度分数,并使用它们进行权重求和和池化来视觉表示。多重注意力可以并行或者顺序计算,这其中的代表算法是结构注意力(Structured Attention)。
4.MuRel的贡献(MuRel contributions):
移除了传统的注意力框架,采用了向量化表示方法,对每个区域的视觉内容和问题进行建模。此外,还在表示中加入了空间和语义环境的概念,即通过视觉嵌入和空间坐标的交互来表示成对的图像区域。
模型方法:
该模型如下图所示:
输入一个图像v和一个问题q,需要获得一个符合真实答案a*的预测答案a^,传统VQA模型通常看作一个分类问题:
其中的