【论文阅读】【CVPR2017】Dual Attention Networks for Multimodal Reasoning and Matching

Abstract

我们提出双重注意网络模型(DANs)利用视觉和文字共同注意机制捕捉视觉和语言之间的细微互动。 DANs关注图像和文字的特定区域文本信息这些文本信息通过多个步骤收集来自两种模式的重要信息。 基于这个框架,我们引入两种类型的DANs进行多模态推理,匹配以及分类。 推理模型允许可视化并在协作推理期间用文本注意机制互相关联,这对于视觉问答(VQA)等任务很有用。 此外,匹配模型利用文本和图像两种注意机制,通过关注它们来估计图像和句子之间共享的相似性的语义。 我们大量的实验证实了,DANs在结合视觉和语言方面的有效性,在VQA和图像文本匹配的公共基准上实现最先进的性能。

1. Introduction

视觉和语言是理解现实世界的人类智能的两个核心部分。 它们也是实现人工智能的基本组成部分,数十年来在每个领域已经进行了大量的研究。 最近,深度学习的戏剧性进步打破了视觉和语言之间的界限,(VQA[3372335],图像字幕[33,2],图像文本匹配[8,11,20,30],视觉领域[24,9].

神经网络的最新进展之一是注意机制[21,4,33]。 它旨在依次关注数据的某些方面,并汇总一段时间内的基本信息以推断结果,而且神经网络已成功应用于视觉和语言两个领域。 在计算机视觉中,基于注意机制的方法自适应地选择一系列图像区域来提取必要的特征[21,6,33]。 同样,用于自然语言处理的注意模型突出特定的词或句子以从输入文本中去提取信息[4,25,15]。 这些方法结合了包括卷积神经网络(CNN)和递归神经网络(RNN)在内的深层架构提高了广泛应用的性能。

 

1:用于多模式推理和匹配的双重注意网络(DAN)概述。 图像区域的亮度和单词的黑暗度表示DAN预测的注意权重。

尽管在处理视觉和文本数据方面注意力的有效性不错,但很难在视觉和文本关注模型之间尝试建立联系,而一旦建立联系那么这将在各种情况下都是非常有益的。 例如,图1a中的VQA问题与问题伞是什么颜色? 可以通过同时关注伞的区域和单词颜色来有效解决。 在图1b中的图像 - 文本匹配的例子中,通过关注共享语义的特定区域和单词(例如女孩和游泳池),可以有效地测量图像和句子之间的相似性。

在本文中,我们提出了双重注意网络(DANs),它们共同学习视觉和文本注意模型,以探索视觉和语言之间的细微交互。我们研究了图1中所示的DANs的两种变体,分别称为推理DANrDAN)和匹配DANm-DAN)。 rDAN使用联合记忆,协作地执行视觉和文本注意机制,该联合记忆汇集先前的关注结果并引导下一个关注点。它适用于需要多模式推理的任务,例如VQA。另一方面,m-DAN将视觉和文本注意模型与不同的记忆分开,但共同训练它们以捕捉图像和句子之间的共享语义。这种方法最终找到一个组合嵌入空间,这有助于高效的跨模式匹配和检索。两种提出的算法都将视觉和文本注意机制紧密地联系在一个统一的框架中,在VQA和图像文本匹配问题中达到了出色的性能。

总而言之,我们的工作主要贡献如下:

·我们提出了一个视觉和文字注意的组合框架,其中关键区域和单词共同地通过多个步骤定位。

·所提出的框架的两种变体被实现用于多模式推理和匹配,并被应用于VQA和图像文本匹配。

·注意机制结果的详细可视化验证了我们的模型有效地注意给定任务的视觉和文本数据的重要部分。

·我们的框架演示了VQA数据集[3]Flickr30K图像文本匹配数据集[36]的最先进性能。

 

2. Related Work
2.1. Attention Mechanisms

注意机制允许模型将注意力放在任务每个步骤的视觉或文本输入的必要部分上。视觉注意模型有选择地关注图像中的小区域以提取核心特征,并减少处理的信息量。 最近采用了许多方法来使得图像分类[21,28],图像生成[6],图像字幕[33],视觉问题回答[35,26,32]等受益。另一方面,文本注意机制通常旨在发现语义或句法输入 - 输出对齐在编码器 - 解码器框架下,这在处理长期依赖性方面特别有效。 这种方法已经成功应用于各种任务,包括机器翻译[4],文本生成[16],句子总结[25]和问题回答[15,32]

2.2. Visual Question Answering (VQA)

VQA是用自然语言回答关于给定图像的问题的任务,其需要关于视觉和文本数据的多模式推理。 自Antol等人 [3]提出了一个包含自由形式和开放式问题的大规模数据集以来,它就一直受到关注。 Zhou等人[37]预测了CNN图像特征和口袋问句特征串联的答案的简单基线。 几种方法根据给定的问题自适应地构建深层架构。 例如,Noh等人 [23]在这个问题中学习CNN中强加上一个动态参数层,而Andreas等人[ [1]利用问题的组合架构来组装一系列神经模块。

上述方法的一个限制是他们诉诸于包含嘈杂或不必要信息的全局图像表示。为了解决这个问题,杨等人 [35]提出了执行多步视觉注意的叠加注意网络,并且Shih等人[26]使用对象提议来识别与给定问题相关的区域。最近,动态内存网络[32]将注意机制与内存模块集成在一起,并且多模式紧凑双线性池[5]被用于明确地组合多模态特征并预测关注图像。这些方法通常使用视觉注意力来寻找关键区域,但文本注意很少被纳入VQA。虽然HieCoAtt [18]同时应用了视觉和文字注意力,但它独立地执行了每一步的共同关注,而没有对之前的共同注意力输出进行推理。相反,我们的方法通过基于先前关注的记忆的多重推理步骤来移动和提炼注意力,这有助于视觉和文本数据之间的密切相互作用。

2.3. Image-Text Matching

图像文本匹配的核心问题是测量视觉和文本输入之间的语义相似性。 通常通过学习图像和句子特征向量的直接可比较的联合空间来解决这个问题。 霍多什等人[8]应用典型相关分析(CCA)来发现最大化图像和句子之间的相关性的嵌入,并通过结合深度神经网络进一步改善[14,34]Wang等人最近的一种方法是, [30]包括双向损失函数内的结构保持约束,以使结合空间更具有判别性。 相反,马等人 [19]构造CNN将图像和句子片段组合成联合表示,从中直接推断匹配分数。 基于给定查询图像的句子的反概率,图像字幕框架也被用来估计相似度[20,29]

据我们所知,没有人研究过试图学习图像文本匹配的多模态注意模型。 尽管Karpathy等人 [11,10]建议寻找图像区域和句子片段之间的对齐,他们明确计算它们之间的所有成对距离并估计平均或最佳对齐评分,但是导致了效率十分低下。 另一方面,我们的方法自动参与图像和句子之间的共享概念,同时将它们嵌入到联合空间中,其中通过单个内积操作直接获得交叉模式相似性。

3. Dual Attention Networks (DANs)

我们提出了两种DANs结构来巩固视觉和文本注意机制:r-DAN用于多模式推理,m-DAN用于多模式匹配。他们共享一个共同的框架,但在视觉和文本关注方面存在差异。 我们首先描述通用框架,包括输入表示(第3.1节)和注意机制(第3.2节)。 然后我们分别说明应用于VQA和图像文本匹配的r-DAN(第3.3节)和mDAN(第3.4节)的细节。

3.1. Input Representation

Image representation 图像特征是从19VGGNet [27]152ResNet [7]中提取的。 我们首先将图像重新缩放到448×448并将它们输入到CNN中。 为了获得不同区域的特征向量,我们采用VGGNetpool5)的最后一个池化层或ResNet最后一个池化层(res5c)的下面一层。 最后,输入图像由{v1...vN}表示,其中N是图像区域的数量,并且vn是对应于第n个区域的512VGGNet)或2048ResNet)维度特征向量。

 

Text representation 我们使用双向LSTM来生成文本特征,如图2所示。给定T输入单词{w1...wT}的单热点编码,我们首先通过xt = Mwt将单词嵌入到向量空间中,其中M是 一个嵌入矩阵。 然后我们将这些矢量输入到双向LSTM中:


其中htfhtb分别表示时间t时刻来自前向和后向LSTM的隐藏状态。 通过在每个时间步增加两个隐藏状态,即,我们构造了一组特征向量{u1...uT},其中ut表示在整个句子的上下文中对第t个词的语义进行编码。 请注意,这里讨论的模型包括词嵌入矩阵和LSTM是端对端训练的。

3.2. Attention Mechanisms

我们的方法通过多个步骤同时进行视觉和文字的关注,并从两种方式收集必要的信息。 在本节中,我们将解释每个步骤中使用的基本注意机制,这些机制可用作组成整个DAN的构建块。 为了简单起见,我们将在下面的等式中省略偏置项b

Visual Attention. 视觉注意旨在通过关注输入图像的某些部分来生成上下文向量。 在步骤k,视觉上下文向量vk由下式给出:

 

其中mvk-1是一个直到步骤k-1之前已经参与的信息的存储器向量编码。具体地,我们采用软注意机制,其中上下文向量是从输入特征向量的加权平均值获得的。 通过2层前馈神经网络(FNN)和softmax函数计算注意权重{αvnk} N n = 1

 

其中WvkWvmkWvhk为网络参数,hvnk为隐藏状态,⊙为元素乘法。 在公式6中,我们引入了一个附加的权重矩阵Pk图层,以便将视觉上下文向量嵌入到具有文本上下文向量的兼容空间中,因为我们使用了预训练图像特征Vn

Textual Attention. 文本注意力通过关注每个步骤中输入句子的特定单词来计算文本语境向量uk

 

其中muk-1是一个内存向量。 文本注意机制几乎与视觉注意机制相同。 换句话说,从2FNN获得注意权重{αutk} T t = 1,并且上下文向量uk是通过加权平均计算:

 

其中WukWumkWuhk为网络参数,hu,tk为隐藏状态。 与视觉注意不同,在最后的加权平均之后它不需要额外的层,因为文本特征ut已经是端对端的训练了的

3.3. r-DAN for Visual Question Answering

VQA是一个代表性问题,需要对多模式数据进行联合推理。 为此目的,rDAN保持联合存储器向量mk,其累积直到步骤k之前已经参与的视觉和文本信息。 它被递归地更新

 

其中vkuk分别是从等式6等式10获得的视觉和文本语境向量。 该联合表示同时引导视觉和文本注意力,即mk= mvk= muk,这允许两个关注机制彼此紧密合作。 初始存储器向量m0基于全局上下文向量v0u0来定义:

 

通过对K个步骤重复双重注意(等式3等式7)和记忆模型更新(等式11),我们有效地关注图像和问题中的关键部分,并收集相关信息以回答问题。 图3说明了在K = 2的情况下r-DAN的总体结构。

 

最后的答案是通过多方面多途径分类来预测最高C的频繁答案。 我们使用一个交叉熵损失的单层softmax分类器,输入是最终的记忆向量mK

 

Pans代表候选答案的概率。

 

3.4. m-DAN for Image-Text Matching

图像文本匹配任务通常涉及众多图像和句子之间的比较,其中跨模式相似性的有效和高效计算能力是至关重要 为了实现这一点,我们的目标是学习满足以下特性的联合嵌入空间。 首先,嵌入空间对经常在图像和句子域中共同出现的共享概念进行编码。 此外,图像和句子自主地嵌入关节空间而不被配对,从而空间中的任意图像和句子矢量可以直接比较。

我们的m-DAN共同学习视觉和文本注意模型,以捕捉两种模式之间的共享概念,但在推理时分离它们以在嵌入空间中提供一般可比较的表示。 与使用联合记忆的r-DAN相反,m-DAN为视觉和文本注意保持单独的记忆向量,如下所示:

 

 

它们分别被初始化为等式1314中定义的v0u0 在每一步,我们通过它们的内积计算视觉和文本上下文向量之间的相似度sk):

 

在执行双注意和记忆更新的K个步骤之后,给定图像和句子之间的最终相似度S变为:

 

4描述了K = 2时该模型的总体结构。

 

该网络训练了双向最大边缘排序损失,这在多模态相似学习中被广泛采用[11,10,13,30]。 对于图像和句子(vu)的每个正确对,我们另外采样负图像v-和负句子u-构造两个负对(v-u)和(vu-)。然后,损失函数变为:

 

其中m是边际约束。 通过最小化这个功能,上述网络被训练集中在通过视觉和文本注意机制仅出现在正确的图像 - 句子对中的通用语义。

在推理时,任意图像或句子通过连接其上下文向量嵌入到联合空间中:

 

其中 ZvZu分别是图像v和句子u向量表示。 请注意,这些向量是通过视觉和文本关注的独立管道获得的,即学习到的共享概念从图像或句子本身揭示,而不是从图像 - 句子对中揭示。 联合空间中两个向量之间的相似性通过它们的内积简单计算,例如, Svu= Zv·Zu,它等于公式19中网络的输出。

4. Experiments

4.1. Experimental Setup

我们修复了应用于r-DANm-DA N的所有超参数。 注意机制步骤K的数量设置为2,这在经验上表现出最佳性能。 每个隐藏层的维度(包括词嵌入,LSTMs和注意模型)设置为512.我们通过随机梯度下降训练我们的网络,学习率为0.1,动量为0.9,权重衰减为0.0005,丢失率为0.5,梯度剪切 在0.1。 该网络接受60个时期的训练,30个时期后学习率降至0.01 r-DAN和m-DAN的minibatch分别由128对hi-image,positive-sentence,negative-image,negative-sentencei的h image,questioni和128 quadruple组成。 VQA的可能答案C的数量设置为2000,等式20中的损失函数的边际m设置为100

4.2. Evaluation on Visual Question Answering

4.2.1 Dataset and Evaluation Metric

我们在视觉问答(VQA)数据集[3]上评估r-DAN,其中包含来自MSCOCO数据集的大约200K个真实图像[17]。 每张图片都与三个问题相关联,每个问题都由人类注释者标注了十个答案。 数据集通常分为四个分组:train80K图像),val40K图像),test-dev20K图像)和test-std20K图像)。 我们使用trainval训练我们的模型,使用test-dev进行验证,并在test-std上进行评估。 有两种形式的任务,即开放式任务和多项选择任务,它们分别需要在没有和有一组候选答案的情况下回答每个问题。 对于这两项任务,我们都遵循[3]中使用的评估指标

 

其中是预测答案。

4.2.2 Results and Analysis

与最先进的VQA系统相比,r-DAN的性能如表1所示,其中我们的方法应用在开放式和多项选择任务。为了公平评估,尽管[5]使用模型集合和额外的训练数据报告了更好的性能我们仍然比较了没有数据增加的单模型精度。图5描述了我们通过可视化注意力权重的方法得出的不确定结果。我们的方法能够对具有挑战性的问题产生正确的答案,这些问题需要细致的推理,并成功地参与到有助于回答问题的特定区域和单词中。具体来说,图5中的第一个和第四个例子说明r-DAN将其视觉注意移到由注意到的词表示的适当区域,而第二和第三个例子表明它将其文本注意力移动到将复杂任务划分为顺序子任务 - 查找目标对象并提取某些属性。

1VQA数据集的结果与最先进的方法进行比较。

 

 

5注意可视化的VQA数据集的定性结果。 对于每个示例,查询图像,问题以及DAN的答案都是从上到下呈现的; 原始图像(问题),第一和第二关注地图从左到右显示。 图像的亮度和文字的黑暗代表了他们的注意力。

2:与最先进的方法相比,Flickr30K数据集上的双向检索结果。

 

 

6:使用注意可视化的图像到文本检索的定性结果。 对于每个示例,从上到下显示查询图像和前两个检索到的句子; 原始图像(句子),第一和第二关注地图从左到右显示。 (+)和( - )分别表示基础训练真值和非基础训练真值语句。

4.3. Evaluation on Image-Text Matching

4.3.1 Dataset and Evaluation Metric

我们使用Flickr30K数据集[36]来评估多模匹配的mDAN。 它由31,783幅真实图像组成,每幅图像有五个描述性句子,我们遵循[20]的公开分割:29,783次训练,1,000次验证和1,000次测试图像。 我们报告mDAN在双向图像和句子检索中的表现,使用与以前的工作相同的度量[34,19,20,30]Recall @ KK = 1510)表示在顶部K结果中至少检索一个基础训练实况的查询的百分比,MR用于衡量排名靠前的基础训练实况的中位数。

 

7:使用注意可视化从文本到图像检索的定性结果。 对于每个示例,查询语句和顶部两个检索图像从上到下显示; 原始句子(图像),第一和第二关注地图从左到右显示。 绿色和红色框分别表示基础训练真相和非基础训练真相图像。

4.3.2 Results and Analysis

2给出了Flickr30K数据集的定量结果,其中所提出的方法在所有测量中优于其他近期的方法。 从图像到文本和文本到图像检索的定性结果也分别在图6和图7中进行了说明,可视化注意机制输出。 在每一个注意关注的步骤中,m-DAN都能有效发现出现在两种模式中的基本语义。 它倾向于在第一步捕捉主要对象(例如女人,男孩,人等),并在第二步中找出相关对象,背景或动作(例如,计算机,脚手架,扫掠等)。 请注意,此属性完全来自视觉和文字注意模型共同学习的训练阶段,而图像和句子在推理时独立处理。

5. Conclusion

我们提出双注意网络(DANs)来弥合视觉和文本注意机制。 我们提出了两种DAN架构用于多模式推理和匹配。 第一个模型从图像和句子中协同推导答案,而另一个模型通过捕获它们的共享语义将它们嵌入到一个公共空间中。 这些模型展现了在VQA和图像文本匹配中最先进的性能,通过双重注机制展示们在提取重要信息方面的有效性。 所提出的框架可以潜在地推广到视觉和语言交叉处的各种任务,例如图像字幕,视觉训练,视频问答等。

  • 4
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值