ECCV 2020 《Propagating Over Phrase Relations for One-Stage Visual Grounding》论文笔记

简介

本文出自香港大学的sibei,二作是中山大学李冠斌老师
下载链接

动机

Phrase level visual grounding具有两个challenge:①大量的、可变的视觉内容,多样的短语描述(不同的短语描述可能指向同一个bbox,eg:穿红衣服的男子、拉小提琴的男子。。。);②短语关系推理中存在明确的引用(顺序?)。现有方法分为两类:①大多数方法不建模短语之间的关系,而关注于特征融合;②少部分方法考虑了短语之间的关系,但是它们捕获的是部分(或粗糙)的短语上下文,短语之间没有明确的语言关系,如下图(b)。

贡献

  • 提出关系传递模块(Relational Propagation Module,RPM),可以基于linguistic relation在phrases pair间传递信息;
  • 提出一种基于语言结构引导的网络,在语言解析图的指导下,迭代地给名词短语传递跨模态信息。
  • 在Flickr30K Entities数据集上测试,超过了SOTA。

方法

模型的整体框架如下图所示,处理过程共分为五个步骤,下面逐一介绍。

①. 对输入图片进行编码,将visual feature V V V和spatial coordinates P P P融合,得到spatial-aware feature F F F
②. 对输入文本进行解析,得到linguistic graph G G G,解析方法使用VL15中的方法
③. 对于每个结点,基于 F F F和结点对应的短语特征 w n ′ w_{n}^{'} wn,得到多模态特征 M M M和短语增强图 S S S,这里得到的 M M M在不同的迭代轮次中均不改变,作为评价anchor boxes置信度的依据。
④. 使用RPM模块,在边上进行消息传递,得到关系增强图 R R R,再进行结点信息聚集,得到联合强化图 C C C
⑤. 使用 M M M C C C选择出最优的anchor box,回归offset即可。

实验

在Flickr30K Entities上的实验结果:

消融实验:

实验结果:

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值