简介
本文出自南加大,可以对训练集中没有出现的words(或categories)进行grounding。
下载链接
动机
已有的grounding方法在测试时,只能对训练集中出现过的words(或phrases)进行定位。本文提出一个新的task——zero-shot grounding,致力于对训练集中没有出现的words(或phrases)进行定位。但是,由于detector能够识别的categories受限于训练数据,两阶段的grounding方法不适用于此任务。综上,本文提出了一阶段的zero-shot grounding方法(多模态特征融合+SSD)。
上图中,(a)和(b)是训练数据,©代表常规的visual grounding方法可以处理的测试数据,(d)、(e)和(f)是训练集中不存在的数据(words、categories),也就是zero-shot grounding想要解决的case。
贡献
- 提出新任务——Zero-shot grounding;
- 提出解决新任务的baseline方法——ZSGNet;
- 构造了新任务的数据集——Flickr-Split-0、Flickr-Split-1、VG-Split-2和VG-Split-3;
- 在构造的数据集上测试了ZSGNet,验证了方法的有效性。
方法
首先,看一下本文方法和传统grounding中的两阶段方法在pipeline上的对比:
其实作者提出ZSGNet从结构上看也是一目了然的,就是将visual feature、language feature和anchor locations在通道维度上进行concatenation,再使用FCN输出每个bbox的score和offset,损失函数也是非常常规,用Focal Loss监督分类,用Smooth L1 Loss监督bbox offset回归。
实验
本文为不同的条件设置了四种不同的条件:
- ①. 新的query word(图一中def);
- ②. 新的referent类别(图一中d);
- ③. 新的referent类别(new category),但是此类别和训练集中已有类别(origin category)近似,且new category和origin category没有同时出现在测试数据中(图一中e);
- ④. 和③相比,两种category同时出现在测试数据中(图一中f)。本文使用word embedding来衡量words之间的相似度。
本文根据上面四个条件,构造了Flickr-Split-0、Flickr-Split-1、VG-Split-2和VG-Split-3,分别对应于四种不同的条件。
下表是和其他SOTA方法在Flickr30k和ReferIt数据集上的实验结果:
下表是在本文构造的四个数据集上的实验结果,0.3和0.5代表IoU threshold,B和UB代表balanced和unbalanced。
下图是一些grounding结果,第一行出自Flickr30k和ReferIt数据集,第二行出自Flickr-Split-0、1数据集(对应于条件①②),第三行出自VG-Split-2、3数据集(对应于条件①②),最后一列是failed case。