ICCV 2019《Zero-Shot Grounding of Objects from Natural Language Queries》论文笔记

最新推荐文章于 2023-06-03 14:33:53 发布

NeverMoreH

最新推荐文章于 2023-06-03 14:33:53 发布

阅读量718

点赞数

本文链接：https://blog.csdn.net/ms961516792/article/details/109471295

版权

vision&language 同时被 2 个专栏收录

53 篇文章 9 订阅

订阅专栏

visual grounding (RE)

10 篇文章 6 订阅

订阅专栏

简介

本文出自南加大，可以对训练集中没有出现的words（或categories）进行grounding。
下载链接

动机

已有的grounding方法在测试时，只能对训练集中出现过的words（或phrases）进行定位。本文提出一个新的task——zero-shot grounding，致力于对训练集中没有出现的words（或phrases）进行定位。但是，由于detector能够识别的categories受限于训练数据，两阶段的grounding方法不适用于此任务。综上，本文提出了一阶段的zero-shot grounding方法（多模态特征融合+SSD）。

上图中，(a)和(b)是训练数据，©代表常规的visual grounding方法可以处理的测试数据，(d)、(e)和(f)是训练集中不存在的数据（words、categories），也就是zero-shot grounding想要解决的case。

贡献

提出新任务——Zero-shot grounding；
提出解决新任务的baseline方法——ZSGNet；
构造了新任务的数据集——Flickr-Split-0、Flickr-Split-1、VG-Split-2和VG-Split-3；
在构造的数据集上测试了ZSGNet，验证了方法的有效性。

方法

首先，看一下本文方法和传统grounding中的两阶段方法在pipeline上的对比：

其实作者提出ZSGNet从结构上看也是一目了然的，就是将visual feature、language feature和anchor locations在通道维度上进行concatenation，再使用FCN输出每个bbox的score和offset，损失函数也是非常常规，用Focal Loss监督分类，用Smooth L1 Loss监督bbox offset回归。

实验

本文为不同的条件设置了四种不同的条件：

①. 新的query word（图一中def）；
②. 新的referent类别（图一中d）；
③. 新的referent类别（new category），但是此类别和训练集中已有类别（origin category）近似，且new category和origin category没有同时出现在测试数据中（图一中e）；
④. 和③相比，两种category同时出现在测试数据中（图一中f）。本文使用word embedding来衡量words之间的相似度。

本文根据上面四个条件，构造了Flickr-Split-0、Flickr-Split-1、VG-Split-2和VG-Split-3，分别对应于四种不同的条件。
下表是和其他SOTA方法在Flickr30k和ReferIt数据集上的实验结果：

下表是在本文构造的四个数据集上的实验结果，0.3和0.5代表IoU threshold，B和UB代表balanced和unbalanced。

下图是一些grounding结果，第一行出自Flickr30k和ReferIt数据集，第二行出自Flickr-Split-0、1数据集（对应于条件①②），第三行出自VG-Split-2、3数据集（对应于条件①②），最后一列是failed case。

NeverMoreH

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
ICCV 2019《Zero-Shot Grounding of Objects from Natural Language Queries》论文笔记

目录简介动机贡献方法实验简介本文出自南加大，可以对训练集中没有出现的words（或categories）进行grounding。下载链接动机已有的grounding方法在测试时，只能对训练集中出现过的words（或phrases）进行定位。本文提出一个新的task——zero-shot grounding，致力于对训练集中没有出现的words（或phrases）进行定位。但是，由于detector能够识别的categories受限于训练数据，两阶段的grounding方法不适用于此任务。综上，本文
复制链接

扫一扫

专栏目录