论文:A Real-Time Cross-modality Correlation Filtering Method for Referring Expression Comprehension

论文提出了一种名为RCCF的实时跨模态相关滤波方法,用于解决指称表达理解问题。RCCF将理解过程视为模板匹配,以语言为模板在图像特征上进行相关滤波,实现实时目标定位。相比传统两阶段方法,RCCF在保持高精度的同时,提高了推理速度,且仅使用引用表达式数据集进行训练。在RefClef等数据集上,RCCF的表现优于现有方法,尤其在RefClef中几乎翻倍了性能。
摘要由CSDN通过智能技术生成
## 作者

在这里插入图片描述

Abstract

Referring expression comprehension aims to localize the object instance described by a natural language expression. Current referring expression methods have achieved good performance. However , none of them is able to achieve real-time inference without accuracy drop. The reason for the relatively slow inference speed is that these methods artificially split the referring expression comprehension into two sequential stages including proposal generation and proposal ranking. It does not exactly conform to the habit of human cognition. To this end, we propose a novel Real-time Cross-modality Correlation Filtering method (RCCF). RCCF reformulates the referring expression comprehension as a correlation filtering process. The expression is first mapped from the language domain to the visual domain and then treated as a template (kernel) to perform correlation filtering on the image feature map. The peak value in the correlation heatmap indicates the center points of the target box. In addition, RCCF also regresses a 2-D object size and 2-D offset. The center point coordinates, object size and center point offset together to form the target bounding box. Our method runs at40FPS while achieving leading performance in RefClef, RefCOCO, RefCOCO+ and RefCOCOg benchmarks. In the challenging RefClef dataset, our methods almost double the state-of-the-art performance (34.70%increased to63.79%). We hope this work can arouse more attention and studies to the new cross-modality correlation filtering framework as well as the one-stage framework for referring expression comprehension.

引用表达式理解的目的是对自然语言表达式所描述的对象实例进行本地化。目前的引用表达式方法已经取得了良好的性能。但是,没有一种方法能够在不降低准确性的情况下实现实时推理。推理速度相对较慢的原因是这些方法将指称表达式理解人为地分为建议生成和建议排序两个连续阶段。它并不完全符合人类认知的习惯。为此,我们提出了一种新的实时交叉模态相关滤波方法(RCCF)。rccf将关联表达式理解定义为相关过滤过程。该表达式首先从语言域映射到视觉域,然后作为模板(内核)对图像特征映射进行相关滤波。关联热图中的峰值表示目标框的中心点。此外,RCCF还回归二维物体大小和二维偏移量。中心点坐标、物体大小和中心点偏移一起构成目标边界框。我们的方法以40fps的速度运行,同时在RefClef, RefCOCO, RefCOCO+和RefCOCOg基准测试中取得领先的性能。在具有挑战性的RefClef数据集中,我们的方法几乎是最先进性能的两倍(34.70%提高到63.79%)。我们希望这一工作能够引起人们对跨模态关联过滤框架以及指代表达理解的一阶段框架的更多关注和研究。

Introduction

指称表达理解[34,32,27]近年来备受关注。引用表达式是图像中特定对象的自然语言描述。给定这样的引用表达式,引用表达式理解的目标是在图像中定位对象实例。实现人机交互、机器人技术和早期教育是机器智能领域的关键任务之一。
引用表达式理解的传统方法大多将此问题表述为对象检索任务,其中从一组对象建议中检索最匹配引用表达式的对象。这些方法[32,29,28,27]主要由两个阶段组成。在第一阶段,给定一个输入图像,应用预先训练好的目标检测网络生成一组目标建议。在第二阶段,给定一个输入表达式,从检测对象建议中选择最佳匹配区域。现有的两阶段法虽然取得了很大的进展,但仍存在一些问题。1)两阶段方法的性能非常局限于第一阶段产生的目标提案的质量。如果没有准确地检测到目标对象,则不可能在第二阶段匹配语言。2)在第一阶段,需要大量额外的目标检测数据,如COCO[17]和Visual Genome[13],才能达到满意的结果。3)两阶段法通常计算成本高。对于每个目标提议,既要进行特征提取,又要进行跨模态相似度计算。然而,最终只选择相似度最高的提案。从图1可以看出,目前的两阶段方法的精度是合理的,但推理速度在达到实时性方面仍有较大差距。
上述三个问题在现有的两阶段框架中很难解决。我们将引用表达式理解重新定义为一个跨模态模板匹配问题,其中语言作为模板(过滤器内核),图像特征映射是执行相关过滤的搜索空间。从数学上讲,引用表达式理解的目的是学习一个函数 f ( z , x ) f(z, x) f(z,x),该函数将表达式与候选图像进行比较,并返回相应区域的高分。该区域用2-dim中心点、2-dim物体大小(高度和宽度)和2-dim偏移量来恢复离散误差[15,36,6]。我们提出的RCCF是端到端可训练的。将语言嵌入作为相关滤波器,应用于特征图生成中心点的热图。为了更精确的定位,我们计算多层次图像特征上的相关图,并将输出的图进行融合,得到最终的目标中心热图。此外,宽度、高度和偏移热图仅用视觉特征进行回归。在推理过程中,文本首先被嵌入到视觉空间中,然后在图像特征映射上滑动。选取目标中心热图中的峰值点作为目标的中心。收集相应的宽度、高度和偏移量,形成目标包围框,即参考表达式推导结果。
我们提出的RCCF方法的优点可以概括为三个方面:

  • 在单GPU条件下,我们的推理速度达到实时(40FPS),比两阶段推理速度快12倍
  • 我们的方法可以只使用引用表达式数据集进行训练,不需要任何额外的对象检测数据。此外,我们的一阶段模型可以避免传统两阶段方法中目标检测器的误差累积
  • RCCF已经在RefClef、RefCOCO、RefCOCO+和RefCOCOg数据集中实现了最先进的性能。特别是在RefClef数据集中,我们的方法比最先进的方法的性能高出34.70%到63.79%,几乎是最先进方法的两倍。

Related Work

2.1. Referring Expression Comprehension

传统的指称表达理解方法大多由两阶段组成。在第一阶段,给定一个输入图像,使用预先训练好的目标检测网络或无监督方法生成一组目标建议。在第二阶段,给定一个输入表达式,从检测到的目标建议中选择最佳匹配区域。随着深度学习的发展,两阶段方法取得了很大的进步。大多数两阶段的方法集中在提高第二阶段。其中大多数[20,9,35,32,27,28]主要研究如何从语言和图像中挖掘上下文信息或建模被指者之间的关系,例如matnet[32]提出了一个模块化的注意模型来捕获多模态上下文信息.
现有的两阶段法虽然取得了较好的效果,但仍存在一些共性问题。首先,两阶段方法的性能仅限于目标探测器。其次,这些方法在生成目标建议和提取每个建议的特征方面浪费了大量的时间。因此,我们提出用基于相关滤波的方法直接给出一个表达式来定位目标对象。

2.2. Correlation Filtering

首先提出相关滤波来训练一个线性模板来区分图像及其平移。相关滤波被广泛应用于计算机视觉的各个领域。目标分类[14,7,26]可以看作是一个相关滤波任务,其中输出的图像特征向量可以看作是一个滤波核,它对最后一个多层感知器的权重矩阵进行相关滤波。对于单目标跟踪,在给定第一帧目标区域的情况下对视频中的目标进行定位,相关滤波可以起到将第一帧与其他帧进行比较的作用。早期的跟踪工作[2,8]首先将图像转移到傅里叶域,然后在傅里叶域中进行相关滤波。Siamese FC[1]提出直接学习空间域上的相关层,其中Siamese FC比较从一个Siamese网络提取的两个图像特征。
受人类视觉感知机制的启发,我们认为基于语言的视觉根植过程可以类比为基于过滤的视觉反应激活过程。具体来说,人们一般是从全局的角度理解句子的语义信息,并在头脑中形成一个关于句子描述的特征模板,然后根据该模板快速对图像进行注意匹配,其中,将响应值最高的显著区域作为目标匹配区域。为此,我们将指代表达式理解问题定义为一个跨模态关联过滤过程,并采用单阶段联合优化范式进行求解。

Method

在本节中,我们介绍了我们提出的RCCF方法参考表达式理解。我们的目标是直接本地化引用表达式描述的对象,而不需要建议生成步骤。为此,我们将引用表达式理解任务定义为一个跨通道模板匹配问题。在RCCF中,我们首先通过使用语言引导的滤波内核对图像特征进行相关滤波,从而定位由表达式描述的对象的中心点。然后,我们应用一个回归模块来回归对象大小和中心点偏移量。将相关热图中的峰值、回归的物体大小和中心点偏移量共同构成目标包围框。

3.1 Framework

设Q代表一个查询句, I ∈ R H × W × 3 I∈\R^{H×W×3} IRH×W×3表示宽度 W W W和高度 H H H的图像,我们的目的是找到表达式所描述的目标区域。目标物体区域由其中心点 ( x t , y t ) (x_t, y_t) (xt,yt)和物体大小 ( w t , h t ) (w_t, h_t) (wt,ht)表示。此外,为了恢复由输出步幅引起的离散化误差,我们预测了中心点的局部偏移量 ( δ x t , δ y t ) (δx_t, δy

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值