CVPR 2019 Progressive Attention Memory Network for Movie Story Question Answering

本文提出了渐进注意力记忆网络(PAMN)用于电影故事问答,解决长视频定位和多模态融合的挑战。PAMN包括递进注意力机制、动态模态融合和置信度修正回答方案,通过多步骤推理提高准确性。在MovieQA和TVQA基准测试中,PAMN表现出优越性能。
摘要由CSDN通过智能技术生成
动机
  1. 人类具有先天的认知能力,可以从不同的感觉输入中推断出5W和1H的问题,这些问题涉及who,what,when,where,why以及how,在机器上复制这种能力一直是人类的追求。 近年来,关于问题回答(QA)的研究已成功地受益于深度神经网络,并显示出对textQA,imageQA,videoQA的显着改进。

  2. 本文考虑了电影故事QA ,旨在通过观察与时间对齐的视频和字幕后回答有关电影内容和故事情节的问题,来共同理解视觉和语言。 与VQA相比,电影故事问答具有两个方面的挑战性:

(1)精确定位与电影故事问答相关的时间部分,因为电影通常长于一小时;

(2)电影故事问答既有视频又有字幕,不同的问题需要不同的模态来推断答案。

  1. 电影故事问答的第一个挑战是,它涉及的长视频可能超过一个小时,这阻碍了精确定位所需的时间部分。回答问题所需的电影中的信息不是在时间轴上均匀分布的。为了解决这个问题,memory网络在QA任务中已被广泛接受。attention机制被广泛地用于检索与问题相关的信息。作者观察到记忆网络上的单步attention常常产生模糊的时间attention映射。

  2. 电影故事问答的第二个挑战是它同时涉及视频和字幕,不同的问题需要不同的模态来推断答案。每种模态都可以为不同的问题传达基本的信息,将它们最佳地融合是一个重要的问题。在电影《Indiana Jones and the Last Crusade》中,“What does Indy do to the grave robbers at the beginning of the movie?”这一问题需要视频形式而不是字幕形式,而“How has the guard managed to stay alive for 700 years?”这一问题则需要字幕形式。现有的多模态建模方法只关注模态之间丰富的相互作用的建模。然而,这些方法都是问题无关的,因为融合过程不涉及问题。

方法
简介

针对上述问题,本文提出了用于电影故事问答的渐进attention memory网络(PAMN)。PAMN包含三个主要特征;(1)用于精确定位被查询时间部分的递进attention机制;(2)用于自适应地融合基于问题和条件的模态的动态模态融合;(3)置信度修正回答方案。递进式attention机制利用了出自问题和答案的线索为每个memory修剪掉不相关的时间部分。在反复地获取问题和答案以产生时间attention的同时,记忆逐渐更新以积累线索来定位回答问题的相关时间部分。与堆叠的attention相比,渐进式attention在单个框架中考虑多个源(例如Q和A)和多个目标(例如视频和字幕memory)。动态模态融合通过自适应地确定每个模态的贡献来聚合每个memory的输出。在当前问题条件下,通过soft attention机制获得贡献。用双线性运算融合多模态数据往往需要较重的计算量或大量的参数。动态模态融合通过丢弃不必要的模态中的无价值信息,有效地将视频和字幕模态融合在一起。置信度修正答题方案依次修正每个候选答案的选择单词前得分。当人类解决问题时,他们通常以迭代的模态多次阅读内容、问题和答案。这种观察是用置信度修正回答方案建模的。与采用单步回答方案的现有回答方案相比,本文所称的预测分数(logits)具有相同的初始化和连续修正的可能性。

计算每种模态的贡献中使用到的 Soft Attention:传统的Attention Mechanism就是Soft Attention,即通过确定性的得分计算来得到attended之后的编码隐状态。Soft Attention是参数化的(Parameterization),因此可导,可以被嵌入到模型中去,直接训练。梯度可以经过Attention Mechanism模块,反向传播到模型其他部分。 也有称作Top-down Attention。

PAMN

在这里插入图片描述

图1给出了PAMN的总体结构,它充分利用了不同的信息源(视频、字幕、问题和候选答案)来回答问题。PAMN的流水线如下所示。首先,将视频和字幕嵌入到双memory中,如图1(a)所示,它为每个模态保持独立的memory。然后,递进attention机制确定与回答问题相关的时间部分,如图1(b)所示。为了推断出正确答案,将图1©中的动态模态融合,通过考虑每个模态的贡献,自适应地集成每个memory的输出。置信度回答方案从同样可能的置信度中依次修正每个答案的置信度,如图1(d)所示。(即PAMN的流水线如图1由以下四部分组成:(a)问题和候选答案嵌入一个公共空间。视频和字幕被嵌入到双memory中,该双memory为每个模态保持独立的memory。(b)渐进式attention机制确定与回答问题相关的时间

CVPR 2019中发表了一篇题为“迁移学习:无监督领域自适应的对比适应网络(Contrastive Adaptation Network for Unsupervised Domain Adaptation)”的论文。这篇论文主要介绍了一种用于无监督领域自适应的对比适应网络。 迁移学习是指将从一个源领域学到的知识应用到一个目标领域的任务中。在无监督领域自适应中,源领域和目标领域的标签信息是不可用的,因此算法需要通过从源领域到目标领域的无监督样本对齐来实现知识迁移。 该论文提出的对比适应网络(Contrastive Adaptation Network,CAN)的目标是通过优化源领域上的特征表示,使其能够适应目标领域的特征分布。CAN的关键思想是通过对比损失来对源领域和目标领域的特征进行匹配。 具体地说,CAN首先通过一个共享的特征提取器来提取源领域和目标领域的特征表示。然后,通过对比损失函数来测量源领域和目标领域的特征之间的差异。对比损失函数的目标是使源领域和目标领域的特征在特定的度量空间中更加接近。最后,CAN通过最小化对比损失来优化特征提取器,以使源领域的特征能够适应目标领域。 该论文还对CAN进行了实验验证。实验结果表明,与其他无监督领域自适应方法相比,CAN在多个图像分类任务上取得了更好的性能,证明了其有效性和优越性。 综上所述,这篇CVPR 2019论文介绍了一种用于无监督领域自适应的对比适应网络,通过对源领域和目标领域的特征进行对比学习,使得源领域的特征能够适应目标领域。该方法在实验中展现了较好的性能,有望在无监督领域自适应任务中发挥重要作用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值