One-Stage Visual Grounding论文汇总

现有方法

2017 arXiv

题目

An End-to-End Approach to Natural Language Object Retrieval via Context-Aware Deep Reinforcement Learning
下载链接

动机

本文面向natural language object retrieval任务,已有方法分为两阶段,先提取proposals,再生成每个proposal的score并排序。这样生成的proposals是冗余的,且和referred object不相关。具体来说,已有方法(proposal based)有以下缺点:

  • 两个阶段相互独立,训练过程没有对齐,导致结果为次优解。
  • 这类方法需要提取很多的proposals来保证recall,这造成了冗余,并降低了ranking function的判别能力。

简介

将文本特征和图像特征融合,再使用强化学习进行定位。



2017 CVPR

题目

A Joint Speaker-Listener-Reinforcer Model for Referring Expressions
下载链接

动机

Generation和Comprehension是两个独立逆任务,现有的方法都是单独针对某个任务进行。本文将两个逆任务联合,并添加强化学习策略,达到了更优的实验结果。

简介

Speaker负责生成文本描述,Listener负责理解文本描述,Reinforcer负责控制采样,使Speaker生成的expressions具有多样性。在训练完成后,Speaker和Listener都可以单独用于grounding任务。对于Speaker,使用每个region生成expression,取与query相似度最高的expression对应的region作为结果。对于Listener,直接计算每个region和query的相似度,选score最大的即可。


2017 CVPR

题目

Weakly-supervised Visual Grounding of Phrases with Linguistic Structures
下载链接

动机

传统的监督框架,依赖于带有边框或像素级别标注的数据集,而随着领域朝着解决更大规模问题的方向发展,获取大量的这类标注数据成为了瓶颈。本文应对以上问题,提出了弱监督的视觉定位方法,可以基于图像等级的标注(没有region-phrase标注)进行训练,生成像素级别的grounding结果。

简介

本文是第一个用语言层级结构进行弱监督视觉定位的方法。文中使用了两个loss,分别是structural loss和discriminative loss。前者用于使文本短语编码的结构和视觉注意力掩码相匹配,后者用于匹配image-phrase pairs。


2017 IJCAI

题目

An Attention-based Regression Model for Grounding Textual Phrases in Images
下载链接

动机

现有方法基于proposals,模型的最终性能取决于生成proposals的方法,这类方法也带来了额外的计算成本。本文将grounding视为一个回归问题,提出了可以直接识别短语对应区域的方法,省去了生成proposals带来的计算量。作者总结了proposal based方法的缺点:

  • 正确的region不一定包含在proposals中。
  • 对不包含正确region的proposals进行ranking是很困难的。

简介

方法如图,没什么好说的。


2018 arXiv

题目

Real-Time Referring Expression Comprehension by Single-Stage Grounding Network
下载链接

动机

现有方法为三阶段,①生成proposals;②对两种模态进行encode;③基于matching score进行ranking。经过作者统计,这类方法第一步会耗费较多时间,因此并不适用于有实时需求的场景。

简介

方法看图即懂。


2018 CVPR

题目

Multi-level Multimodal Common Semantic Space for Image-Phrase Grounding
下载链接

动机

现有方法没有完全挖掘多模态表示和映射空间,本文提出multi-level多模态注意力机制,可以在不同的语义等级下,生成word-level或sentence-level的注意力图。

简介

下图是本文方法的大致流程,具体的模块设计参见论文。


2019 ICCV

题目

A Fast and Accurate One-Stage Approach to Visual Grounding
下载链接

动机

两阶段方法依赖于proposals的质量,如果在第一阶段生成的proposals没有很好的cover ground truth,那么二阶段是没有意义的。且所有的proposals只有1-2个是正确的,浪费了很多计算资源处理错误的proposals。

简介

针对上述问题,本文提出在YOLOv3中嵌入文本查询信息,在准确性和速度上都取得了不错的结果。


2019 ICCV

题目

Zero-Shot Grounding of Objects from Natural Language Queries
参考链接

2019 WACV

题目

Interpretable Visual Question Answering by Visual Grounding from Attention Supervision Mining
下载链接

动机

在VQA问题中,对生成answer的同时,得到relevant regions是很有必要的,这在一定程度上可以验证模型的可解释性。已有的方法通过注意力机制,高亮和answer相关的区域,注意力机制的使用方法可以分为了两类:①在模型的中间部分使用注意力,不需要监督信息,依靠模型的最终输出进行训练;②在模型的输出部分使用注意力,需要使用额外监督信息。针对第①类方法,模型学到的注意力往往提供不了可解释信息;针对第②类方法,标注信息较为昂贵,且标注人员和我们的关注点可能不同,会带来歧义。

简介

本文利用Visual Genome数据集中的region descriptions和object annotations自动构建可用于注意力监督的attention map。

本文主要的创新点在Attention Supervision Module,即联合visual grounding作为辅助。


2020 CVPR

题目

A Real-Time Cross-modality Correlation Filtering Method for Referring Expression Comprehension
下载链接

动机

现有方法由于采用两阶段框架(proposal generation、proposal ranking),在不降低精度的同时,无法达到实时推理。本文从以上问题出发,提出RCCF方法,可以在单GPU上达到40FPS,约为two-stage方法的两倍。

简介

作者将相关滤波融入多模态任务中,让我有一种这是tracking方法的感觉。


2020 ECCV

题目

Improving One-stage Visual Grounding by Recursive Sub-query Construction
下载链接

动机

现有的visual grounding方法可以分为两类:一阶段、两阶段。本文面向一阶段方法,提升现有方法处理长(long)、复杂(complex)query的能力。本质是:本文提出了一个可以用在一阶段visual grounding模型中的query modeling方法(两阶段模型中有很多query modeling方法,但是由于一些限制,不能直接用于一阶段模型)。

简介

下图中,子查询学习器负责学习Query中每个word的注意力,子查询调制器负责基于子查询学习器得到的注意力,对text-conditional visual feature进行refine,增强referred object的特征,并压制其他object的特征。本文方法的详细介绍参见这篇博客


2020 ECCV

题目

Linguistic Structure Guided Context Modeling for Referring Image Segmentation
参考链接

2020 ECCV

题目

Propagating Over Phrase Relations for One-Stage Visual Grounding
参考链接

xxx

题目

下载链接

动机

简介


总结

one-stage解决的问题

  • 两阶段方法存在较多冗余的proposals,浪费计算资源,无法达到实时 → \rightarrow 更快的方法
  • 两阶段方法依赖于proposals质量 → \rightarrow 更准的方法

one-stage方法的好处

  • 速度快
  • 更符合人类的认知过程
  • 4
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值