简介
本文出自香港大学的sibei,二作是中山大学李冠斌老师
下载链接
动机
Phrase level visual grounding具有两个challenge:①大量的、可变的视觉内容,多样的短语描述(不同的短语描述可能指向同一个bbox,eg:穿红衣服的男子、拉小提琴的男子。。。);②短语关系推理中存在明确的引用(顺序?)。现有方法分为两类:①大多数方法不建模短语之间的关系,而关注于特征融合;②少部分方法考虑了短语之间的关系,但是它们捕获的是部分(或粗糙)的短语上下文,短语之间没有明确的语言关系,如下图(b)。
贡献
- 提出关系传递模块(Relational Propagation Module,RPM),可以基于linguistic relation在phrases pair间传递信息;
- 提出一种基于语言结构引导的网络,在语言解析图的指导下,迭代地给名词短语传递跨模态信息。
- 在Flickr30K Entities数据集上测试,超过了SOTA。
方法
模型的整体框架如下图所示,处理过程共分为五个步骤,下面逐一介绍。
①. 对输入图片进行编码,将visual feature
V
V
V和spatial coordinates
P
P
P融合,得到spatial-aware feature
F
F
F。
②. 对输入文本进行解析,得到linguistic graph
G
G
G,解析方法使用VL15中的方法。
③. 对于每个结点,基于
F
F
F和结点对应的短语特征
w
n
′
w_{n}^{'}
wn′,得到多模态特征
M
M
M和短语增强图
S
S
S,这里得到的
M
M
M在不同的迭代轮次中均不改变,作为评价anchor boxes置信度的依据。
④. 使用RPM模块,在边上进行消息传递,得到关系增强图
R
R
R,再进行结点信息聚集,得到联合强化图
C
C
C。
⑤. 使用
M
M
M和
C
C
C选择出最优的anchor box,回归offset即可。
实验
在Flickr30K Entities上的实验结果:
消融实验:
实验结果: