动机
-
VQA具有挑战性,因为它需要同时使用图像和文本执行细粒度推理的能力。视频问答(VideoQA)和多模态视频问答(MVQA)都是这种需要推理的任务。
-
与VQA或VideoQA相比,MVQA是一项更具挑战性的任务,因为它(1)需要确定与QA相关的时间时刻,(2)还需要对视频和字幕模态进行推理。
-
MVQA的第一个挑战是在所有有助于回答问题的异构模态中定位关键时刻。然而,以往的时间attention往往过于模糊或不准确地关注视频和字幕的重要区域,从而在推理过程中引入噪声。除了定性地评估预测到的attention之外,到目前为止,还没有量化的指标来衡量其准确性,这使得很难验证检索适当信息以回答问题的能力。
-
MVQA的第二个挑战是能够对回答问题的异构模态进行推理,因为它要求检索穿插在多模态中的被查询信息。早期融合框架只有在样本空间很好地填充,使得联合嵌入空间很好地定义的情况下,才会对时刻定位和答案预测进行推理非常有用;否则,可能会发生极端过拟合,一个模态将在另一个模态上充当噪声。后期融合框架通常不足以回答需要一种用于时间定位的模态和另一种用于回答预测的模态的问题,如图1所示。作者认为这种模态转换能力是MVQA的一个重要组成部分,这是现有方法所不能做到的。
-
本文的主要动机来自于时刻定位所需的模态可能不同于答案预测所需的模态。
方法
简介
为了解决上述问题,作者首先提出将MVQA问题分解为两个子任务:时刻定位和答案预测。本文的主要动机来自于时刻定位所需的模态可能不同于答案预测所需的模态。为此,提出了模态转移注意网络(MSAN)的概念,该网络由以下两部分组成:(1)时刻候选网络(MPN)和(2)模态推理网络(HRN)。MPN定位了回答问题所需的感兴趣时刻(MoI)。在这里,MoI候选是在视频和字幕上被定义,MPN学习每个MoI候选的时刻分数。基于局部化MoI,HRN通过一种称为异构注意力机制(HAM)的多模态注意力机制来推断正确答案。HAM由三个attention单元组成:self-attention(SA)和context-to-query(C2Q)attention,前者用于建模模态内的交互作用(如单词和单词、目标和目标间的关系),后者用于建模问题与上下文(即视频和字幕)之间的模态间交互,以及context-to-context(C2C)的attention,以建模视频和字幕之间的模态间交互。MPN和HRN的结果通过模态重要性调制(Modality importity Modulation,MIM)进一步调整,这是一种在模态之外的额外注意力机制。
框架
图2显示了模态转移注意网络(MSAN)的总体流水线,包括两个子网络:模态候选网络(MPN)和异构推理网络(HRN)。MSAN的主要研究重点在于MVQA中的推理可以由两个连续的子任务来完成:(1)时刻定位和(2)答案预测,并且每个子任务可能需要不同的模态。
MSAN由以下4个部分组成:(a)利用BERT进行嵌入的视频和文本表示;(b)用于定位所需的感兴趣时刻以回答问题的时刻候选网络;©基于定位时刻推断正确答案的异构推理网络;以及(d)模态重要性调制,根据其重要性对(b)和©的输出进行不同的加权。
模型
具体包括:
-
视频和文本表示。
视频表示。就像最近在MVQA上的其他方法一样,输入视频被表示为一组检测到的目标标签。具体地说,以3fps的速度对视频进行采样形成一个帧集合,然后使用在Visual Genome上预训练好的Faster R-CNN用于检测由目标标签及其属性(例如灰色裤子、蓝色毛衣、棕色头发等)组成的视觉概念。作者将输入的视频分成一组视频镜头(截图)来去除冗余。当一个场景变化不快时,附近帧中的视觉概念可能是多余的。作者将视频镜头定义为视觉概念的