论文:Multi-level Multimodal Common Semantic Space for Image-Phrase Grounding(2018CVPR)

论文提出了一种基于多级多模态注意机制的弱监督方法,用于图像中短语的定位。通过学习视觉和文本特征到公共语义空间的非线性映射,利用深度卷积神经网络的不同层次,以及基于字符的上下文语言模型,实现了在多种语义级别上进行比较。实验结果显示,该方法在三个公开数据集上显著超越了现有技术,设置新的性能记录。
摘要由CSDN通过智能技术生成

作者

在这里插入图片描述

摘要

We address the problem of phrase grounding by learning a multi-level common semantic space shared by the textual and visual modalities. This common space is instantiated at multiple layers of a Deep Convolutional Neural Network by exploiting its feature maps, as well as contextualized word-level and sentence-level embeddings extracted from a character-based language model. Following a dedicated non-linear mapping for visual features at each level, word, and sentence embeddings, we obtain a common space in which comparisons between the target text and the visual content at any semantic level can be performed simply with cosine similarity. We guide the model by a multi-level multimodal attention mechanism which outputs attended visual features at different semantic levels. The best level is chosen to be compared with text content for maximizing the pertinence scores of image-sentence pairs of the ground truth. Experiments conducted on three publicly available benchmarks show significant performance gains (20%-60% relative) over the state-of-the-art in phrase localization and set a new performance record on those datasets. We also provide a detailed ablation study to show the contribution of each element of our approach.

我们通过学习文本和视觉模式共享的多层次公共语义空间来解决短语基础的问题。通过利用深度卷积神经网络的特征映射,以及从基于字符的语言模型中提取的上下文化单词级和句子级嵌入,在深度卷积神经网络的多个层上实例化此公共空间。通过对每个层次的视觉特征、单词和句子嵌入进行专门的非线性映射,我们获得了一个公共空间,在这个空间中,目标文本和任何语义层次的视觉内容之间的比较都可以简单地通过余弦相似性进行。我们通过一个多层次的多模态注意机制来引导模型,该机制在不同的语义层次上输出有注意的视觉特征。选择最佳水平与文本内容进行比较,以最大限度地提高基本事实图像-句子对的相关性得分。在三个公开的基准上进行的实验表明,与最先进的VG相比,性能显著提高(相对提高20%-60%),并在这些数据集上创造了新的性能记录。我们还提供了详细的消融研究,以显示我们方法中每个元素的贡献。

Introduction

在这里插入图片描述

Phrase grounding[38,31]是在图像中定位给定自然语言输入短语的任务,如图1所示。这种链接文本和图像内容的能力是许多视觉语义任务的关键组成部分,如图像字幕[10,21,18]、视觉问答[2,29,48,52,11]、基于文本的图像检索[12,39]和机器人导航[44]。这是特别具有挑战性的,因为它需要一个良好的视觉和文本领域的代表性和有效的方式将它们联系起来。
在视觉方面,大多数作品利用了深度卷积神经网络,但通常依赖于bounding box
proposals [38,41,15]或使用图像的全局特征[10],限制了该方法的定位能力和自由度。在文本方面,方法依赖于一个封闭的词汇表,或者尝试使用小型图像标题对数据集来训练自己的语言模型[17,59,53,9]。最后,两种模式之间的映射通常采用弱线性策略[38,51]。我们认为,文献中的方法没有充分利用最近开发的更强大的视觉和文本模型的潜力,并且有开发更复杂的表示和映射方法的空间。
在这项工作中,我们建议显式地学习视觉和文本模式到公共空间的非线性映射,并在每个域的不同粒度上这样做。事实上,深层网络的不同层次对图像的每个区域进行编码,逐渐提高辨别力和上下文意识,同样,单个单词和整个句子的语义水平也在不断提高。这种公共空间映射在弱监督的情况下进行训练,并在测试时利用多级多模态注意机制进行开发,其中计算各级注意热图、注意特征和相关性评分的自然形式使我们能够优雅有效地解决短语基础任务。我们在文本基础文献中的三个常用数据集上评估了我们的模型,并表明它在很大程度上建立了一个新的最先进的性能。
我们在本文中的贡献如下:

  • 在弱监督下,我们学习视觉和文本特征到公共区域词句子语义空间的非线性映射,在该空间中,任何两种语义表示之间的比较都可以通过简单的余弦相似性进行;
  • 我们提出了一种多层次的多模态注意机制,该机制可以在不同的语义层次上产生单词级或句子级的注意图,使我们能够在不同的语义层次上选择最具代表性的注意视觉特征;
  • 我们在三个常用数据集上设置了最新的性能,并给出了详细的消融实验结果,显示了我们方法的每个部分对最终性能的贡献。
    在下一节中,我们将对文献中的相关作品进行简要概述,并在后半部分阐述我们的方法。

Related Works

Grounding natural language in images

解决text grounding任务的最早著作[38,41,15]试图通过从一组proposal中找到正确的边界框来解决这个问题,这些proposal通常从预先指定的模型中获得[62,45]。对于每个文本查询,可以使用reconstruction[41]或sentence generation[15]过程中估计的分数,或者使用公共空间中的距离[38],对这些proposal进行排序。然而,依赖一组固定的预定义概念和proposal可能不是最优的,边界框的质量决定了可以实现的性能上限[15,46]。因此,有几种方法[6,61]提出将proposal步骤集成到其框架中,以提高边界框质量。依赖边界框的工程通常在完全监督的环境下进行[5,53,57,11,6],其中句子和边界框之间的映射必须在培训时提供,这并不总是可用的,而且收集成本很高。还值得一提的是,基于边界框的方法通常会分别为每个边界框提取特征[15,4,46],从而导致较高的计算成本。
因此,一些著作[40,17,59,47,54]选择不依赖边界框,并建议将本地化问题形式化为查找引用表达式的空间热图。这种设置大多是弱监督的,在训练时,只提供图像和文本(描述整个图像或其某些部分),而不提供每个描述的相应边界框或分割掩码。这是我们在本文中讨论的更一般的背景。自上而下的方法[40,59]和基于注意力的方法[17]学习为词汇表中的每个单词生成热图。在测试时,所有这些方法都通过平均查询中词汇表中存在的所有单词的热图来生成最终的热图。一些基础工作还探索了其他知识的使用,如图像[46]和语言[47,37]结构、短语上下文[5]以及利用预先训练的视觉模型预测[4,54]。
与文献中的许多作品相比,我们在方法中不使用预定义的单词或图像概念。我们也不会利用分类或目标检测任务中的任何知识,也不会明确利用图像或句子结构。我们取而代之的是基于字符的语言模型,该模型具有语境化嵌入,可以处理句子中任何看不见的单词。正如我们在续集中进一步解释的那样,句子和其中的每个单词都被分配了一个空间热图,解释了它们在不同视觉语义水平上与图像不同区域的相似性。
我们也不会利用分类或目标检测任务中的任何知识,也不会明确利用图像或句子结构。我们取而代之的是基于字符的语言模型,该模型具有语境化嵌入,可以处理句子中任何看不见的单词。正如我们在续集中进一步解释的那样,句子和其中的每个单词都被分配了一个空间热图,解释了它们在不同视觉语义水平上与图像不同区域的相似性

2.2. Mapping to common space

通常的方法是独立提取视觉和语言特征,并在预测之前进行融合[9,4,6]。目前的工作通常采用多层感知器(MLP)[6,4]、元素乘法[14]或余弦相似性[9]来组合不同模式的表示。其他方法使用了典型相关分析(CCA)[37,38],该分析发现线性投影可最大化异构数据两个视图中投影向量之间的相关性。[11] 介绍了多模态压缩双线性(MCB)合并方法,该方法使用视觉特征和语言特征的两个向量的外积的压缩特征来融合它们。注意方法还可以测量图像-句子特征对的匹配。在[51,33]中,注意力图是由视觉和语言特征的线性投影的点积生成的。相反,我们分别使用视觉特征(在多个语义层次)和文本嵌入(语境化单词和句子嵌入)的非线性映射,并使用多模态损失的多层次注意来学习这些映射权重。

Attention mechanisms

Attention已经在许多视觉和语言任务中证明了它的有效性[23,1,7,52,50],它的设计目的是基于图像-句子对的交互来捕获更好的表示。ccumulated Attention 累积注意力法[8]提出以迭代方式估计句子、物体和视觉特征图上的注意力,其中在每次迭代中,其他两种模式的注意力都被用作参考。[33]探讨了一种密集的共同注意机制 dense co-attention mechanism,通过在视觉和语言表征之间使用完全对称的结构来解决视觉问答任务。在他们的注意机制中,他们在注意图中添加了一个虚拟位置,当模型不应该与softmax一起出现区域或单词时。在AttnGAN[51]中,提出了一种深度注意多模态相似性模型来计算细粒度图像文本匹配损失。与这些工作不同的是,我们删除了注意图顶部的softmax,让模型通过多模态损失的引导来决定哪个词区域可以相互关联。由于我们将视觉特征映射到一个多层次的视觉表示,我们给模型在任何层次上为句子或单词选择任何位置的自由。换句话说,每个单词都可以选择要关注的表示级别(以及表示中的哪个区域)。判决也有同样的自由。我们通过在我们学习的单词、句子和多级语义视觉表示的公共空间中的余弦相似性直接计算该注意图。我们表明,在三个常用数据集上,这种方法明显优于所有最先进的方法,并创造了一种新的最先进的性能。
在这里插入图片描述

Method

在本节中,我们将描述解决Visual grounding任务的方法(如图2所示),并详细阐述每个部分。在第3.1节中,我们解释如何从图像中提取多级视觉特征,从文本中提取单词/句子嵌入,然后描述如何将它们映射到公共空间。在第3.2节中。我们描述了如何计算每个单词/句子的多级多模态注意图和注意视觉特征。然后,在第3.3节,我们描述如何选择最能代表给定文本的视觉特征级别。最后,在第3.4节,我们定义了多模损耗,以使用弱监督来训练整个模型。

Feature Extraction and Common Space

在这里插入图片描述

Visual Feature Extraction

与许多视觉任务不同,在这些任务中,预先训练好的CNN的最后一层被用作图像的视觉表示,我们使用不同层的特征映射,并将它们分别映射到公共空间,以获得多层次的特征映射集,与文本进行比较。直观地说,为了涵盖广泛的视觉概念和模式,需要使用不同级别的视觉表示[26,55,58]。因此,我们从视觉网络的L个不同级别提取 L = 4 L=4 L=4组特征图,通过双线性插值1对所有L个级别的特征图进行上采样,以固定分辨率M×M,然后使用3层1x1卷积(带LeakyRelu[30])和D滤波器将其映射到相等的特征图中。最后,我们将这些特征映射堆叠起来,并对它们进行空间展平,以获得一个整体图像表示tensor

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值