论文：Discriminative Triad Matching and Reconstruction for Weakly Referring Expression Grounding-CSDN博客

本文链接：https://blog.csdn.net/m0_38064230/article/details/121315397

作者

在这里插入图片描述

Abstract

In this paper, we are tackling the weakly-supervised referring expression grounding task, for the localization of a referent object in an image according to a query sentence, where the mapping between image regions and queries are not available during the training stage. In traditional methods, an object region that best matches the referring expression is picked out, and then the query sentence is reconstructed from the selected region, where the reconstruction difference serves as the loss for back-propagation. The existing methods, however, conduct both the matching and the reconstruction approximately as they ignore the fact that the matching correctness is unknown. To overcome this limitation, a discriminative triad is designed here as the basis to the solution, through which a query can be converted into one or multiple discriminative triads in a very scalable way. Based on the discriminative triad, we further propose the triad-level matching and reconstruction modules which are lightweight yet effective for the weakly-supervised training, making it three times lighter and faster than the previous state-of-the-art methods. One important merit of our work is its superior performance despite the simple and neat design. Specifically, the proposed method achieves a new state-of-the-art accuracy when evaluated on RefCOCO (39.21%), RefCOCO+ (39.18%) and RefCOCOg (43.24%) datasets, that is 4.17%, 4.08% and 7.8% higher than the previous one, respectively. The code is available at https://github.com/insomnia94/DTWREG.

在本文中，我们处理弱监督引用表达式基础任务，用于根据查询语句定位图像中的引用对象，其中图像区域和查询之间的映射在训练阶段不可用。在传统的方法中，首先选择与引用表达式最匹配的对象区域，然后从所选区域重构查询语句，其中重构差作为反向传播的损失。然而，现有的方法忽略了匹配正确性未知的事实，近似地进行匹配和重构。为了克服这一局限性，本文设计了一个判别三元组作为解决方案的基础，通过该三元组，可以以非常可伸缩的方式将查询转换为一个或多个判别三元组。在区分性三元组的基础上，我们进一步提出了三元组级匹配和重建模块，这些模块对于弱监督训练来说是轻量级的，但有效，使其比以前的最先进的方法轻三倍，速度快三倍。我们工作的一个重要优点是，尽管设计简单、整洁，但性能优越。具体地说，当对RefCOCO（39.21%）、RefCOCO（39.18%）和RefCOCOg（43.24%）数据集进行评估时，所提出的方法达到了新的最先进的精度，即分别比上一次高4.17%, 4. 08%和7.8%。代码在https://github. com/insomnia94/DTWREG。

Abstract

Referring expression grounding（REG）是一项基本的多模态任务，旨在根据图像中目标对象的查询语句（引用表达式）对其进行识别和定位。因此，REG可以在许多下游任务中使用，包括视觉问答（VQA）[1,2]、视觉常识推理（VCR）[3]、视觉导航[4]等。
传统的REG方法是以有监督的方式进行培训的[5,6]，在training阶段，proposal和查询之间的映射是可用的。然而，在每个查询语句及其对应的proposal之间绘制连接非常耗时。因此，在训练期间上述映射不再可用的弱监督环境（WREG）中处理REG任务具有实际意义。
通常，现有的WREG方法包括两个步骤；即sentence-level matching和reconstruction。在第一步中，WREG方法大致假定现有完全监督REG方法[5]的句子级匹配过程，以计算整个查询和每个候选方案之间的相似性。具体而言，他们要么采用过于简化的句子级匹配模块，将查询粗略地解析为主词和宾词[7]，从而使处理具有许多描述性术语的复杂查询变得麻烦，或者采用一个带有多个语言处理子网络的过于复杂的匹配模块来分析复杂的查询[8]。尽管这些超负荷子网络几乎不妨碍完全监督训练，但在弱监督设置下，它们会出现问题，因为匹配结果的正确性无法保证，这使得前面的短反向传播（BP）路径不可用，新路径更长且噪声更大。因此，简单模型的性能往往优于复杂模型[11,12]。这里出现的困境是，一个好的WREG网络不仅需要一个强大且通用的匹配模块来处理各种查询，尤其是处理零碎且复杂的查询，还需要一个精细且易于训练的匹配模块来促进必要的弱监督训练。
在这里插入图片描述图1。说明（a）传统WREG方法和（b）proposal的三元组水平方法之间的差异。蓝色和黄色部分表示proposal特征和语言特征，红色部分表示个人损失函数。在（a）中，虽然重建句子的意义与标签相同，但损失很大，因为它是逐字计算的，使得网络难以收敛。然而，在（b）中，重建是在triad-level中进行的，300-D MSE损失函数取代了10000-D CE损失函数，这大大方便了弱监督训练。

第二步是构建用于弱监督训练的BP路径，其中创建重建阶段以重建查询信息，原始信息和重建信息之间的差异为BP损失。这种差异可以通过逐字重建整个句子来计算，也可以基于提取的关键词特征来计算。所有现有的WREG方法都采用前一种方法，其中通过RNNstyle网络从图像区域预测句子，如图1（a）所示。然而，事实证明，即使在完全监督的设置下，其精度也很难令人满意[9,10]，这使得BP损失不可靠。此外，我们还发现了heavy RNNstyle重建网络的架构不平衡性，该网络从未在最终推理阶段使用，同时占据了整个网络的大部分参数（在[7,8]中约为75%）。
为了同时解决这些问题，我们设计了一个判别式三元组以及一个可伸缩的查询解析策略，其中一个查询语句可以由一个或多个具有类似公式的判别式三元组表示。具体地说，判别三元组是一个3个单位的集合，第一个单位表示目标对象，第二个单位表示参考对象与目标对象，第三个单位表示目标对象与参考对象之间的判别关系。请注意，区别性关系的定义非常广泛，不仅包括从主语-关系-对象查询中提取的直接关系信息，例如带有三元组{cat，table，on}的“表上的猫”，还包括隐藏在带有描述性术语的一元查询中的隐藏信息，例如“黑色的左边的人”。这个查询可以被解析为两个三元组{man，man，black}和{man，man，left}；见图1。（b）。这样，有区别的三元组可以表示各种形式的查询，以方便匹配过程。
与WREG第一步采用的传统句子级匹配模块不同，我们提出了一种基于三元组proposal相似度的三元组级匹配模型，该模型在弱监督环境下训练速度更快、更容易。尽管简单，但复杂的查询可以非常有效地处理，因为这些查询可以解析为多个区分性三元组，其中通过彻底考虑每个三元组的匹配分数来选择最终的边界框结果。因此，我们没有在第二步逐字重建整个查询语句，而是设计了一个三元组级构造模块，其中损失是根据三个三元组单元的语言特征计算的，这三个三元组单元充当原始查询和重建查询之间的直接快捷键。这提高了损失函数的可靠性，因此便于弱监督训练；见图1（b）。
最终，这些三元组级匹配和重建模块构成了本文提出的区分性WREG网络，同时为未来的WREG工作提供了一个轻便、快速和准确的baseline框架。我们的主要贡献总结如下：

我们提出了一种判别式三元组和一种可伸缩的查询解析策略，其中一个查询语句（无论多么简单、零碎或复杂）可以转换为一个或多个具有相同公式的判别式三元组，每个三元组指示如何从参考对象识别目标对象。
基于区分性三元组（discriminative triad），三元组级匹配和重建模块是专门为WREG任务设计的。由于避免了传统的基于注意的分析，并且通过在三元组中重建三个关键单元来代替对整个句子的逐字重建，因此提出的方法比以前的最先进（SOTA）方法轻三倍，速度快三倍[7]。
在各种已建立的REG数据集上获得了新的SOTA精度。具体而言，所提出的网络当分别对RefCOCO、RefCOCO和RefCOCOg数据集进行评估时精度比之前最好的SOTA方法[7]提高 4.17%, 4.08%, 和7.8%。

Related Work

Supervised REG

Supervised REG通过查询语句定位图像区域，在训练阶段，proposal和查询之间的映射可用。传统上，整个句子是通过单一语言嵌入网络编码的[13]。考虑到查询中不同组件之间的差异，Yuet等人[5]提出了一种注意机制，将查询分解为三个语言组件，描述主题外观、位置以及与其他对象的关系。每个语言成分与候选proposal产生一个匹配分数，每个proposal产生三个匹配分数，综合考虑所有三个匹配分数选择最终结果。为了防止注意机制只关注两种模式中最主要的特征，在[14]中提出了一种擦除机制，其中丢弃了最主要的语言或视觉信息，以驱动模型发现更多互补的语言视觉对应。为了更好地利用目标对象与其相邻对象之间的关系，Wanget al.[15]提出了一种基于图的网络，其中节点对应于对象区域，边表示这些对象之间的关系，利用邻域的附加关系信息丰富目标的特征表示。

Weakly Supervised REG

在WREG的训练过程中，图像区域和查询语句之间没有映射。Rohrbachet al.[16]首先预测查询和所有候选proposal之间的注意力得分，根据所有proposal的注意力得分，使用所有proposal视觉特征的加权和重构查询。原始查询和重构查询之间的差异用于训练。在[17]中，重建每个候选方案的位置参数，并使用原始位置和重建位置之间的差异进行训练。受Mattnet[5]的启发，在Mattnet[5]中将查询分解为三个语言组件，Liuet等人[8]通过最小化每个语言组件的语言特征与其对应的视觉特征之间的距离（除了句子级重建损失）来优化网络。Liuet等人[7]将每个查询解析为主语-宾语对，并在语言主语-宾语对和视觉proposal对之间进行匹配，而BP过程仍然基于句子级重建。与这些WREG方法不同的是，我们的方法避免了复杂的基于注意的分析和基于RNN的整个句子重建，并提出了三元组级匹配和重建模块以获得更好的性能。

Methodology

WREG可以表示为一个区域级检索问题。给定一个图像I，一组图像区域（proposals） $R=\{r_{i}\}^{N}_{i=1}$ 由现有边界框注释提供，或由区域proposal网络（RPN）[18]预测，其中 $r$ 是表示proposal的左上角和右下角的4-D向量， $N$ 是图像 $I$ 中的proposal数。WREG任务是检索目标区域 $r^∗$ 根据查询语句q，通过最大化所有候选proposal $r_{i}$ 和查询q之间的相似度得分 $S（r_{i}，q）$ ，即在这里插入图片描述在这项工作中，查询语句由一组判别三元组 $T＝\{t_{k}\}^{M}_{k=1}$ 表示，其中 $M$ 表示这类三元组的数目。因此，最终的相似性分数可以计算为如下所示的各个分数之和：因此，目标是找到合适的评分机制 $S (\cdot, \cdot)$ ，以正确区分目标区域和其他区域。具体地说，由于在训练期间任何区域查询对的连接注释都是未知的，因此通过一个重建模块从 $r^*$ 预测重建的query $\hat{t}_{k}$ ∗，训练损失是 $t_{k}$ 和 $\hat{t}_{k}$ 之间的差异。整个网络架构如图2所示。
在这里插入图片描述

3.1Discriminative Triad

为了充分利用隐藏在查询中的鉴别信息，我们建议将查询 $q$ 解析并转换为多个鉴别三元组 $\{t_{k}\}^{M}_{k=1}$ ，每个三元组表示一段鉴别信息，以区分目标和分散注意力的对象。判别三元组 $t_{k}$ 由三个分量组成，即target unit $t_{k}^{t}$ 、reference unit $t_{k}^{r}$ 和discriminative unit $t_{k}^{d}$ ，分别表示目标对象、参考对象与目标对象以及它们之间的判别关系。
从表1可以看出，区别单元 $t_{k}^{d}$ 是广义定义的，它不仅可以直接从主语-关系-宾语风格的查询（如 “the man standing on the table”）中提取，还可以从包含隐藏的区别连接信息的一元查询（如“black cat”）中提取。此外，一些特定的标记用于特殊的引用形式。例如，单词查询的判别单元（例如，“man”）被设置为“SELF”，而“UKN”被用来表示片段查询的目标单元和参考单元（例如，“left”）。此外，复杂查询可以分为几个三元组。这样， discriminative
triads就可以代表各种各样的指称形式，无论它们是一元的、零碎的还是复杂的。
在这里插入图片描述

对于其实现，使用现成的NLP处理工具箱（Stanford CoreNLP[19]，Spacy[20]）分析每个查询的树结构，以及查询中每个单词的POS标签和dependency label[21]，以生成discriminative triads。通常，三元组在两个步骤内生成。第一步是找到所有三元组共享的target unit 。具体来说，句子树中左下角名词短语（NP）最右边的正常名词（NN）被视为目标单位。第二步是为每个空间坐标轴生成reference unit和discriminative unit。不同形式的短语以不同的语法分析模式进行处理。对于一元短语，如“the white man” 和 “the left cat”，dependency的第一个成分，其第二个成分与target unit相同，除了名词主语（nsubj）、介词修饰语（prep）和限定词修饰语（det），被视为区别单位，其对应的参考单位与目标单位相同，表示隐藏的参考对象。对于主语-关系-宾语短语，例如“the man holding a cat”，其第一成分与目标单元相同且依赖类型为nsubj的依赖性的第二成分被视为区分单元，具有依赖性的第二成分，其第一分量与当前鉴别单元的第一分量相同，被视为其对应的参考单元。

3.2 Triad-level Matching

空间坐标轴级别匹配的第一阶段是encode图像 $I$ 和query $q$ 。为了对图像 $I$ 进行编码，给定一组候选方案 $\{r_{i}\}^{N}_{i=1}$ ， $I$ 首先被传递到卷积网络（例如，ResNet[22]），其最后的卷积层输出作为图像 $I$ 的视觉特征 $v_{I}$ 。Proposal $r_{i}$ 的视觉特征