One-Stage Visual Grounding论文汇总

最新推荐文章于 2024-06-21 16:34:15 发布

NeverMoreH

最新推荐文章于 2024-06-21 16:34:15 发布

阅读量3.2k

点赞数 4

分类专栏： vision&language # visual grounding (RE) 文章标签： one stage vision language grounding

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ms961516792/article/details/108871210

版权

vision&language 同时被 2 个专栏收录

53 篇文章 9 订阅

订阅专栏

visual grounding (RE)

10 篇文章 6 订阅

订阅专栏

现有方法

2017 arXiv

题目

An End-to-End Approach to Natural Language Object Retrieval via Context-Aware Deep Reinforcement Learning
下载链接

动机

本文面向natural language object retrieval任务，已有方法分为两阶段，先提取proposals，再生成每个proposal的score并排序。这样生成的proposals是冗余的，且和referred object不相关。具体来说，已有方法（proposal based）有以下缺点：

两个阶段相互独立，训练过程没有对齐，导致结果为次优解。
这类方法需要提取很多的proposals来保证recall，这造成了冗余，并降低了ranking function的判别能力。

简介

将文本特征和图像特征融合，再使用强化学习进行定位。

2017 CVPR

题目

A Joint Speaker-Listener-Reinforcer Model for Referring Expressions
下载链接

动机

Generation和Comprehension是两个独立逆任务，现有的方法都是单独针对某个任务进行。本文将两个逆任务联合，并添加强化学习策略，达到了更优的实验结果。

简介

Speaker负责生成文本描述，Listener负责理解文本描述，Reinforcer负责控制采样，使Speaker生成的expressions具有多样性。在训练完成后，Speaker和Listener都可以单独用于grounding任务。对于Speaker，使用每个region生成expression，取与query相似度最高的expression对应的region作为结果。对于Listener，直接计算每个region和query的相似度，选score最大的即可。

2017 CVPR

题目

Weakly-supervised Visual Grounding of Phrases with Linguistic Structures
下载链接

动机

传统的监督框架，依赖于带有边框或像素级别标注的数据集，而随着领域朝着解决更大规模问题的方向发展，获取大量的这类标注数据成为了瓶颈。本文应对以上问题，提出了弱监督的视觉定位方法，可以基于图像等级的标注（没有region-phrase标注）进行训练，生成像素级别的grounding结果。

简介

本文是第一个用语言层级结构进行弱监督视觉定位的方法。文中使用了两个loss，分别是structural loss和discriminative loss。前者用于使文本短语编码的结构和视觉注意力掩码相匹配，后者用于匹配image-phrase pairs。

2017 IJCAI

题目

An Attention-based Regression Model for Grounding Textual Phrases in Images
下载链接

动机

现有方法基于proposals，模型的最终性能取决于生成proposals的方法，这类方法也带来了额外的计算成本。本文将grounding视为一个回归问题，提出了可以直接识别短语对应区域的方法，省去了生成proposals带来的计算量。作者总结了proposal based方法的缺点：

正确的region不一定包含在proposals中。
对不包含正确region的proposals进行ranking是很困难的。

简介

方法如图，没什么好说的。

2018 arXiv

题目

Real-Time Referring Expression Comprehension by Single-Stage Grounding Network
下载链接

动机

现有方法为三阶段，①生成proposals；②对两种模态进行encode；③基于matching score进行ranking。经过作者统计，这类方法第一步会耗费较多时间，因此并不适用于有实时需求的场景。

简介

方法看图即懂。

2018 CVPR

题目

Multi-level Multimodal Common Semantic Space for Image-Phrase Grounding
下载链接

动机

现有方法没有完全挖掘多模态表示和映射空间，本文提出multi-level多模态注意力机制，可以在不同的语义等级下，生成word-level或sentence-level的注意力图。

简介

下图是本文方法的大致流程，具体的模块设计参见论文。

2019 ICCV

题目

A Fast and Accurate One-Stage Approach to Visual Grounding
下载链接

动机

两阶段方法依赖于proposals的质量，如果在第一阶段生成的proposals没有很好的cover ground truth，那么二阶段是没有意义的。且所有的proposals只有1-2个是正确的，浪费了很多计算资源处理错误的proposals。

简介

针对上述问题，本文提出在YOLOv3中嵌入文本查询信息，在准确性和速度上都取得了不错的结果。

2019 ICCV

题目

Zero-Shot Grounding of Objects from Natural Language Queries
参考链接

2019 WACV

题目

Interpretable Visual Question Answering by Visual Grounding from Attention Supervision Mining
下载链接

动机

在VQA问题中，对生成answer的同时，得到relevant regions是很有必要的，这在一定程度上可以验证模型的可解释性。已有的方法通过注意力机制，高亮和answer相关的区域，注意力机制的使用方法可以分为了两类：①在模型的中间部分使用注意力，不需要监督信息，依靠模型的最终输出进行训练；②在模型的输出部分使用注意力，需要使用额外监督信息。针对第①类方法，模型学到的注意力往往提供不了可解释信息；针对第②类方法，标注信息较为昂贵，且标注人员和我们的关注点可能不同，会带来歧义。

简介

本文利用Visual Genome数据集中的region descriptions和object annotations自动构建可用于注意力监督的attention map。

本文主要的创新点在Attention Supervision Module，即联合visual grounding作为辅助。

2020 CVPR

题目

A Real-Time Cross-modality Correlation Filtering Method for Referring Expression Comprehension
下载链接

动机

现有方法由于采用两阶段框架（proposal generation、proposal ranking），在不降低精度的同时，无法达到实时推理。本文从以上问题出发，提出RCCF方法，可以在单GPU上达到40FPS，约为two-stage方法的两倍。

简介

作者将相关滤波融入多模态任务中，让我有一种这是tracking方法的感觉。

2020 ECCV

题目

Improving One-stage Visual Grounding by Recursive Sub-query Construction
下载链接

动机

现有的visual grounding方法可以分为两类：一阶段、两阶段。本文面向一阶段方法，提升现有方法处理长（long）、复杂（complex）query的能力。本质是：本文提出了一个可以用在一阶段visual grounding模型中的query modeling方法（两阶段模型中有很多query modeling方法，但是由于一些限制，不能直接用于一阶段模型）。

简介

下图中，子查询学习器负责学习Query中每个word的注意力，子查询调制器负责基于子查询学习器得到的注意力，对text-conditional visual feature进行refine，增强referred object的特征，并压制其他object的特征。本文方法的详细介绍参见这篇博客

2020 ECCV

题目

Linguistic Structure Guided Context Modeling for Referring Image Segmentation
参考链接

2020 ECCV

题目

Propagating Over Phrase Relations for One-Stage Visual Grounding
参考链接

xxx

题目

下载链接

动机

简介

总结

one-stage解决的问题

两阶段方法存在较多冗余的proposals，浪费计算资源，无法达到实时 $\rightarrow$ 更快的方法
两阶段方法依赖于proposals质量 $\rightarrow$ 更准的方法

one-stage方法的好处

速度快
更符合人类的认知过程

关注

4
点赞
踩
19

收藏

觉得还不错? 一键收藏
2
评论
One-Stage Visual Grounding论文汇总

目录现有方法2017 arXiv题目动机简介2017 CVPR题目动机简介2017 CVPR题目动机简介2017 IJCAI题目动机简介2018 arXiv题目动机简介2018 CVPR题目动机简介2019 ICCV题目动机简介2019 WACV题目动机简介2020 CVPR题目动机简介2020 ECCV题目动机简介xxx题目动机简介总结one-stage解决的问题one-stage方法的好处现有方法2017 arXiv题目An End-to-End Approach to Natural Lang
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。