动机
-
人类具有先天的认知能力,可以从不同的感觉输入中推断出5W和1H的问题,这些问题涉及who,what,when,where,why以及how,在机器上复制这种能力一直是人类的追求。 近年来,关于问题回答(QA)的研究已成功地受益于深度神经网络,并显示出对textQA,imageQA,videoQA的显着改进。
-
本文考虑了电影故事QA ,旨在通过观察与时间对齐的视频和字幕后回答有关电影内容和故事情节的问题,来共同理解视觉和语言。 与VQA相比,电影故事问答具有两个方面的挑战性:
(1)精确定位与电影故事问答相关的时间部分,因为电影通常长于一小时;
(2)电影故事问答既有视频又有字幕,不同的问题需要不同的模态来推断答案。
-
电影故事问答的第一个挑战是,它涉及的长视频可能超过一个小时,这阻碍了精确定位所需的时间部分。回答问题所需的电影中的信息不是在时间轴上均匀分布的。为了解决这个问题,memory网络在QA任务中已被广泛接受。attention机制被广泛地用于检索与问题相关的信息。作者观察到记忆网络上的单步attention常常产生模糊的时间attention映射。
-
电影故事问答的第二个挑战是它同时涉及视频和字幕,不同的问题需要不同的模态来推断答案。每种模态都可以为不同的问题传达基本的信息,将它们最佳地融合是一个重要的问题。在电影《Indiana Jones and the Last Crusade》中,“What does Indy do to the grave robbers at the beginning of the movie?”这一问题需要视频形式而不是字幕形式,而“How has the guard managed to stay alive for 700 years?”这一问题则需要字幕形式。现有的多模态建模方法只关注模态之间丰富的相互作用的建模。然而,这些方法都是问题无关的,因为融合过程不涉及问题。
方法
简介
针对上述问题,本文提出了用于电影故事问答的渐进attention memory网络(PAMN)。PAMN包含三个主要特征;(1)用于精确定位被查询时间部分的递进attention机制;(2)用于自适应地融合基于问题和条件的模态的动态模态融合;(3)置信度修正回答方案。递进式attention机制利用了出自问题和答案的线索为每个memory修剪掉不相关的时间部分。在反复地获取问题和答案以产生时间attention的同时,记忆逐渐更新以积累线索来定位回答问题的相关时间部分。与堆叠的attention相比,渐进式attention在单个框架中考虑多个源(例如Q和A)和多个目标(例如视频和字幕memory)。动态模态融合通过自适应地确定每个模态的贡献来聚合每个memory的输出。在当前问题条件下,通过soft attention机制获得贡献。用双线性运算融合多模态数据往往需要较重的计算量或大量的参数。动态模态融合通过丢弃不必要的模态中的无价值信息,有效地将视频和字幕模态融合在一起。置信度修正答题方案依次修正每个候选答案的选择单词前得分。当人类解决问题时,他们通常以迭代的模态多次阅读内容、问题和答案。这种观察是用置信度修正回答方案建模的。与采用单步回答方案的现有回答方案相比,本文所称的预测分数(logits)具有相同的初始化和连续修正的可能性。
计算每种模态的贡献中使用到的 Soft Attention:传统的Attention Mechanism就是Soft Attention,即通过确定性的得分计算来得到attended之后的编码隐状态。Soft Attention是参数化的(Parameterization),因此可导,可以被嵌入到模型中去,直接训练。梯度可以经过Attention Mechanism模块,反向传播到模型其他部分。 也有称作Top-down Attention。
PAMN
图1给出了PAMN的总体结构,它充分利用了不同的信息源(视频、字幕、问题和候选答案)来回答问题。PAMN的流水线如下所示。首先,将视频和字幕嵌入到双memory中,如图1(a)所示,它为每个模态保持独立的memory。然后,递进attention机制确定与回答问题相关的时间部分,如图1(b)所示。为了推断出正确答案,将图1©中的动态模态融合,通过考虑每个模态的贡献,自适应地集成每个memory的输出。置信度回答方案从同样可能的置信度中依次修正每个答案的置信度,如图1(d)所示。(即PAMN的流水线如图1由以下四部分组成:(a)问题和候选答案嵌入一个公共空间。视频和字幕被嵌入到双memory中,该双memory为每个模态保持独立的memory。(b)渐进式attention机制确定与回答问题相关的时间