ECCV 2020 《Propagating Over Phrase Relations for One-Stage Visual Grounding》论文笔记

最新推荐文章于 2024-06-11 09:54:26 发布

NeverMoreH

最新推荐文章于 2024-06-11 09:54:26 发布

阅读量640

点赞数

分类专栏： vision&language # visual grounding (RE) 文章标签： ECCV2020 视觉定位短语定位 phrasegrounding

本文链接：https://blog.csdn.net/ms961516792/article/details/109315648

版权

vision&language 同时被 2 个专栏收录

53 篇文章 9 订阅

订阅专栏

visual grounding (RE)

10 篇文章 6 订阅

订阅专栏

简介

本文出自香港大学的sibei，二作是中山大学李冠斌老师
下载链接

动机

Phrase level visual grounding具有两个challenge：①大量的、可变的视觉内容，多样的短语描述（不同的短语描述可能指向同一个bbox，eg：穿红衣服的男子、拉小提琴的男子。。。）；②短语关系推理中存在明确的引用（顺序？）。现有方法分为两类：①大多数方法不建模短语之间的关系，而关注于特征融合；②少部分方法考虑了短语之间的关系，但是它们捕获的是部分（或粗糙）的短语上下文，短语之间没有明确的语言关系，如下图(b)。

贡献

提出关系传递模块（Relational Propagation Module，RPM），可以基于linguistic relation在phrases pair间传递信息；
提出一种基于语言结构引导的网络，在语言解析图的指导下，迭代地给名词短语传递跨模态信息。
在Flickr30K Entities数据集上测试，超过了SOTA。

方法

模型的整体框架如下图所示，处理过程共分为五个步骤，下面逐一介绍。

①. 对输入图片进行编码，将visual feature $V$ 和spatial coordinates $P$ 融合，得到spatial-aware feature $F$ 。
②. 对输入文本进行解析，得到linguistic graph $G$ ，解析方法使用VL15中的方法。
③. 对于每个结点，基于 $F$ 和结点对应的短语特征 $w_{n}^{'}$ ，得到多模态特征 $M$ 和短语增强图 $S$ ，这里得到的 $M$ 在不同的迭代轮次中均不改变，作为评价anchor boxes置信度的依据。
④. 使用RPM模块，在边上进行消息传递，得到关系增强图 $R$ ，再进行结点信息聚集，得到联合强化图 $C$ 。
⑤. 使用 $M$ 和 $C$ 选择出最优的anchor box，回归offset即可。

实验

在Flickr30K Entities上的实验结果：

消融实验：

实验结果：

NeverMoreH

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
ECCV 2020 《Propagating Over Phrase Relations for One-Stage Visual Grounding》论文笔记

目录简介动机贡献方法实验简介本文出自香港大学的sibei，二作是中山大学李冠斌老师下载链接动机Phrase level visual grounding具有两个challenge：①大量的、可变的视觉内容，多样的短语描述（不同的短语描述可能指向同一个bbox，eg：穿红衣服的男子、拉小提琴的男子。。。）；②短语关系推理中存在明确的引用（顺序？）。现有方法分为两类：①大多数方法不建模短语之间的关系，而关注于特征融合，如下图(a)；②少部分方法考虑了短语之间的关系，但是它们捕获的是部分（或粗糙）的短语
复制链接

扫一扫

专栏目录