论文:Real-Time Referring Expression Comprehension by Single-Stage Grounding Network

本文提出了一种新的端到端模型——单阶段接地网络(SSG),用于实时理解引用表达并定位图像中的目标。SSG无需区域提议,通过多模态编码器、交互器和引导器直接预测边界框,提高了定位准确性和效率,实现了9倍于多阶段模型的速度提升。
摘要由CSDN通过智能技术生成

作者

在这里插入图片描述

摘要

In this paper , we propose a novel end-to-end model, namely Single-Stage Grounding network (SSG), to localize the referent given a referring expression within an image. Different from previous multi-stage models which rely on object proposals or detected regions, our proposed model aims to comprehend a referring expression through one single stage without resorting to region proposals as well as the subsequent region-wise feature extraction. Specifically, a multimodal interactor is proposed to summarize the local region features regarding the referring expression attentively. Subsequently, a grounder is proposed to localize the referring expression within the given image directly. For further improving the localization accuracy, a guided atten- tion mechanism is proposed to enforce the grounder to focus on the central region of the referent. Moreover, by exploiting and predicting visual attribute information, the grounder can further distinguish the referent objects within an image and thereby improve the model performance. Experiments on RefCOCO, RefCOCO+, and RefCOCOg datasets demonstrate that our proposed SSG without relying on any region proposals can achieve comparable performance with other advanced models. Furthermore, our SSG outperforms the previous models and achieves the state-of-art performance on the ReferItGame dataset. More importantly, our SSG is time efficient and can ground a referring expression in a 416×416image from the RefCOCO dataset in 25ms (40 referents per second) on average with a Nvidia Tesla P40, accomplishing more than 9×speedups over the existing multi-stage models.

在本文中,我们提出了一种新的端到端模型,即Single-Stage Grounding network (SSG),用于在图像中给定引用表达式时对引用对象进行定位。与以往依赖于object proposal或detected region的多阶段模型不同,我们提出的模型旨在通过单个阶段理解引用表达式,而无需借助region proposals以及后续的区域特征提取 region-wise feature extraction. 。具体地说,提出了一种多模态交互器来仔细地总结关于指称表达的局部区域特征。随后,提出了一种将引用表达式直接定位在给定图像中的方法。为了进一步提高定位精度,提出了一种引导注意机制,使地面目标聚焦于周围的中心区域。此外,通过利用和预测视觉属性信息,地面可以进一步区分图像中的参考对象,从而提高模型性能。在RefCOCO、RefCOCO和RefCOCOg数据集上的实验表明,我们提出的SSG不依赖任何区域方案,可以实现与其他高级模型相当的性能。此外,我们的SSG优于以前的模型,并在ReferItGame数据集上实现了最先进的性能。更重要的是,我们的SSG具有时间效率,可以使用Nvidia Tesla P40从RefCOCO数据集中以平均25毫秒(每秒40个 referents)的速度在416×416图像中建立引用表达式,比现有多阶段模型实现9倍以上的加速。

Introduction

在这里插入图片描述

Referring expression comprehension[32,33,34,35],也称为referring expression grounding,是一个基础研究问题,受到计算机视觉和自然语言处理研究界越来越多的关注。给定一个图像以及一个引用表达式,该表达式描述图像中的特定引用对象,引用表达式理解的目的是定位与引用表达式语义对应的引用对象。这是一项具有一般目的但极具挑战性的视觉 语言任务,因为它不仅需要参考对象的本地化,还需要对参考对象和关系(如图1中的“左”)进行高级语义理解,以帮助区分同一图像中正确的参考对象和其他不相关的参考对象。
如图1(a)所示,先前的参考表达理解模型可被视为包括三个阶段的多阶段方法[7,14,16,24,32,33,34,35]。首先,传统的对象建议生成方法(如EdgeBox[36]、选择性搜索[28])或现成的对象检测器(如更快的R-CNN[23]、SSD[12]和掩码R-CNN[4])用于提取一组区域作为匹配参考表达式的候选区域。其次,卷积神经网络(CNN)[26,27]和递归神经网络(RNN)[2,5]分别用于对图像区域和参考表达式进行编码。最后,设计了一个排序模型,选择匹配得分最高的区域作为参照。这些多阶段模型在指称表达理解任务的相关数据集上取得了显著的成绩[32,34,35]。
然而,这些多阶段模型在计算上非常昂贵,每个阶段都要花费大量时间,特别是区域建议生成和区域特征提取,如表3所示。因此,这些模型不适用于具有实时性要求的实际场景。因此,这一新的挑战激励并激励我们设计一个基础模型,该模型能够有效地定位图像中的参照物。为此,在本文中,我们提出了一种单级接地网络(SSG),以实现实时接地效果以及良好的性能,而无需借助区域方案。更具体地说,如图1(b)所示,我们的SSG模型由三个组件组成,即多模态编码器、多模态交互器和引用表达式引导器。利用多模式编码器(第3.1节)分别对给定图像和引用表达式进行编码。多模态交互者(第3.2节)旨在仔细总结以文本表示为条件的图像局部表示。最后,基于联合表示,引用表达式grounder(第3.3节)负责直接预测与引用表达式对应的边界框的坐标。除了边界盒回归损失外,还引入了另外三个辅助损失,以进一步提高SSG的性能。它们是信心分数损失(第3.3.1节),反映边界框的准确性;注意力重量损失(第3.3.2节),通过使用地面真实边界框的中心点作为目标,强制地面关注有用区域;以及属性预测损失(第3.3.3节)有利于区分同一图像中的参照物。因此,我们提出的SSG在一个单独的阶段中执行,以处理指称表达理解任务,从而导致可比的模型性能以及比现有多阶段模型多9倍的加速。

总之,我们工作的主要贡献如下:

  • 我们提出了一种新的端到端模型,即单级接地网络(SSG),用于处理指称表达式理解任务,该模型直接预测给定图像中与指称表达式对应的边界框的坐标,而不依赖于任何区域建议。
  • 我们提出了一种带有客体中心偏向的引导注意机制,以鼓励我们的SSG关注参照物的中心区域。此外,我们提出的SSG可以通过利用和预测视觉属性信息进一步区分参考对象
  • 我们的SSG可以有效地执行指称表达理解任务。具体而言,我们的GAG与最先进的模型相比,取得了可比的结果,同时在相同的硬件环境下,速度提高了9倍以上。

Related work

2.1. Referring Expression Comprehension

The referring expression comprehension任务是在给定的图像中定位指称对象,该图像在语义上对应于给定的指称表达式。这项任务涉及理解和建模不同的空间环境,如空间结构[14,33]、属性[11,32]和区域之间的关系[16,33]。在以前的工作中,这项任务通常被描述为对给定图像中的一组区域建议的排序问题。区域建议从建议生成方法(如EdgeBoxes[36])或高级对象检测方法(如SSD[12]、更快的RCNN[23]和Mask R-CNN[4])中提取。早期模型[14,33]根据视觉和空间特征表示对区域方案进行评分。然而,由于每个区域的评分过程是孤立的,因此这些方法无法考虑对象之间的交互作用。Nagaraja等人[16]通过对区域提案之间的关系进行建模,提高了绩效。YU等人[34]提出了一个联合框架,将指称表达理解和生成任务整合在一起。将来自区域建议的视觉特征和来自引用表达式的语义信息嵌入到公共空间中。Zhang等人[35]开发了一个变分贝叶斯框架,以利用指称和上下文之间的相互作用。尽管这些模型及其变体在参考理解任务[32]上取得了显著的性能改进,但这些多阶段方法在实际应用中的计算成本可能会很高。

2.1 Object detection

我们提出的SSG还受益于最先进的目标探测器,特别是YOLO[20]、YOLO-v2[21]和YOLO-v3[22]。YOLO[20]将输入图像划分为7×7个网格单元,并直接预测多个类别的置信值和边界框的坐标。与YOLO类似,YOLO-v2[21]也将输入图像分割为一组网格单元。然而,它在每个网格单元上放置5个锚箱,并预测锚箱的修正。此外,YLO-v3采用53层卷积层的更深层次网络作为主干,功能更强大。为了定位小对象,YOLOv3[22]还引入了额外的穿透层,以获得更细粒度的特征。

Architecture

给定一个图像和一个引用表达式 E = { e t } t = 1 T E=\{e_t\}^T_{t=1} E={ et}t=1T,其中 e t e_t et是第t个单词,t表示单词总数,参考表达式理解的目标是定位图像 I I I内的一个子区域 I b I_b Ib,其对应于参考表达式 E E E的语义。
我们提出了一种新的无region proposal模型,即SSG,用于处理 referring expression comprehension task任务。如图2所示,我们提出的SSG是一个onestage模型,由三个组件组成。更具体地说,多模态编码器分别为图像和引用表达式生成视觉和文本表示。然后,多模态交互者执行视觉注意机制,该机制旨在通过聚焦输入图像的有用区域来生成聚集的视觉向量。最后,引用表达式grounder执行定位以预测与引用表达式对应的边界框。

3.1. Multimodal Encoder

SSG中的多模态编码器用于生成输入数据的语义表示,即图像和文本,如图2所示。

3.1.1 Image Encoder

我们采用一种先进的CNN架构——YOLO-v31[22]——在MSCOCO-LOC数据集[10]上预训练,作为图像编码器。具体地说,我们首先将给定的image I I I调整为3×416×416的大小,然后将其送入编码器网络。输出向量 s = { s n } n = 1 N s=\{s_n\}^N_{n=1} s={ sn}n=1N s n ∈ R s_n∈\R snR,来自第58卷积层的用作表示图像不同局部区域的特征表示。根据YLO-v3的网络结构, s n s_n sn是一个维度size D I = 1024 D_I=1024 DI=1024的向量,local region 的总数N=169。

3.1.2 Text Encoder

给定一个引用表达式 E = { e t } t = 1 T E=\{e_t\}^T_{t=1} E={ et}t=1T,其中 e t e_t et表示第t个单词。首先,引用表达式中的每个单词都需要通过最新的高级单词嵌入模型进行初始化,如Word2V ec[15]、GloV e[18]和ELMo[19]。在本文中,我们采用在5.5B tokens个数据集上预训练的EMLo模型。生成相应单词嵌入向量 w = { w t } t = 1 T w=\{w_t\}^T_{t=1} w={ wt}t=1T w t ∈ R D w w_t∈ \R^{D_w} w

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值