ICCV 2019《Zero-Shot Grounding of Objects from Natural Language Queries》论文笔记

简介

本文出自南加大,可以对训练集中没有出现的words(或categories)进行grounding。
下载链接

动机

已有的grounding方法在测试时,只能对训练集中出现过的words(或phrases)进行定位。本文提出一个新的task——zero-shot grounding,致力于对训练集中没有出现的words(或phrases)进行定位。但是,由于detector能够识别的categories受限于训练数据,两阶段的grounding方法不适用于此任务。综上,本文提出了一阶段的zero-shot grounding方法(多模态特征融合+SSD)。

上图中,(a)和(b)是训练数据,©代表常规的visual grounding方法可以处理的测试数据,(d)、(e)和(f)是训练集中不存在的数据(words、categories),也就是zero-shot grounding想要解决的case。

贡献

  • 提出新任务——Zero-shot grounding;
  • 提出解决新任务的baseline方法——ZSGNet;
  • 构造了新任务的数据集——Flickr-Split-0、Flickr-Split-1、VG-Split-2和VG-Split-3;
  • 在构造的数据集上测试了ZSGNet,验证了方法的有效性。

方法

首先,看一下本文方法和传统grounding中的两阶段方法在pipeline上的对比:

其实作者提出ZSGNet从结构上看也是一目了然的,就是将visual feature、language feature和anchor locations在通道维度上进行concatenation,再使用FCN输出每个bbox的score和offset,损失函数也是非常常规,用Focal Loss监督分类,用Smooth L1 Loss监督bbox offset回归。

实验

本文为不同的条件设置了四种不同的条件:

  • ①. 新的query word(图一中def);
  • ②. 新的referent类别(图一中d);
  • ③. 新的referent类别(new category),但是此类别和训练集中已有类别(origin category)近似,且new category和origin category没有同时出现在测试数据中(图一中e);
  • ④. 和③相比,两种category同时出现在测试数据中(图一中f)。本文使用word embedding来衡量words之间的相似度。

本文根据上面四个条件,构造了Flickr-Split-0、Flickr-Split-1、VG-Split-2和VG-Split-3,分别对应于四种不同的条件。
下表是和其他SOTA方法在Flickr30k和ReferIt数据集上的实验结果:

下表是在本文构造的四个数据集上的实验结果,0.3和0.5代表IoU threshold,B和UB代表balanced和unbalanced。

下图是一些grounding结果,第一行出自Flickr30k和ReferIt数据集,第二行出自Flickr-Split-0、1数据集(对应于条件①②),第三行出自VG-Split-2、3数据集(对应于条件①②),最后一列是failed case。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值