论文:Zero-Shot Grounding of Objects from Natural Language Queries

作者

在这里插入图片描述

摘要

A phrase grounding system localizes a particular object in an image referred to by a natural language query. In previous work, the phrases were restricted to have nouns that were encountered in training, we extend the task to Zero-Shot Grounding(ZSG) which can include novel, “unseen” nouns. Current phrase grounding systems use an explicit object detection network in a 2-stage framework where one stage generates sparse proposals and the other stage evaluates them. In the ZSG setting, generating appropriate proposals itself becomes an obstacle as the proposal generator is trained on the entities common in the detection and grounding datasets. We propose a new single-stage model called ZSGNetwhich combines the detector network and the grounding system and predicts classification scores and regression parameters. Evaluation of ZSG system brings additional subtleties due to the influence of the relationship between the query and learned categories; we define four distinct conditions that incorporate different levels of difficulty. We also introduce new datasets, sub-sampled from Flickr30k Entities and Visual Genome, that enable evaluations for the four conditions. Our experiments show that ZSGNet achieves state-of-the-art performance on Flickr30k and ReferIt under the usual “seen” settings and performs significantly better than baseline in the zero-shot setting.

短语基础系统将自然语言查询引用的图像中的特定对象定位。在以前的工作中,短语被限制为包含在训练中遇到的名词,我们将任务扩展到zero-shot grounding(ZSG),其中可以包括新颖的“看不见的”名词。当前阶段接地系统在两阶段框架中使用明确的目标检测网络,其中一个阶段生成稀疏建议,另一个阶段对其进行评估。在ZSG设置中,生成适当的建议本身成为一个障碍,因为建议生成器在检测和接地数据集中常见的实体上接受培训。我们提出了一个新的称为DZSGNeth的单级模型,该模型结合了探测器网络和接地系统,并预测分类分数和回归参数。由于查询和学习的类别之间的关系的影响,ZSG系统的评估带来了额外的微妙之处;我们定义了四种不同的条件,它们包含不同的困难程度。我们还引入了新的数据集,从Flickr30k实体和可视基因组中进行亚取样,从而能够对四种情况进行评估。我们的实验表明,ZSGNet在Flickr30k和ReferIt上实现了最先进的性能,并且在通常的“可见”设置下,ZSGNet的性能明显优于零拍设置下的基线。

Introduction

在这里插入图片描述

检测图像中的目标是计算机视觉的一个基本目标。此任务的一个变体是短语基础(也称为视觉基础和引用表达式),其目标是检测文本查询中名词短语引用的对象[7,19,40,45]。它可以直接应用于其他任务,如视觉问答[1,51]和图像检索[5],因此受到广泛关注。
虽然现有的短语基础系统接受新的查询短语作为输入,但它们仅限于训练数据中遇到的名词(即,所引用的对象类型需要在训练图像中“看到”)。作为一个重要的扩展,我们定义了zero-shot grounding(ZSG),以允许使用带有名词的短语,而接地系统以前在训练集中从未遇到过这些短语。图1举例说明了这个概念。
为了使新的对象类别成为可能,我们需要将引用对象的外观与其语言描述联系起来。目前,最先进的短语接地系统[7,9,34,45,49]依赖于一个明确的对象检测器,作为一个预处理步骤,获取提议的对象边界框及其混合特征。这本质上将这些系统限制为探测器所训练的一组固定的对象类别。在ZSG中,我们需要为新对象设置一个合理的建议框,将其分类为前景,并对该框进行回归以获得更精确的空间拟合。在传统的短语基础中,一个关键挑战是使用查询短语消除相似对象之间的歧义,但ZSG要求我们也首先找到可能包含引用对象的可能图像区域。
为了解决上述问题,我们将传统的两阶段方法(第一阶段生成提案边界框,第二阶段进行分类)替换为具有密集提案的单阶段网络;我们称这个网络为ZSGNet。它从图像建议中提取组合语言查询特征和视觉特征,并预测分类分数和回归参数。系统以端到端的方式直接根据接地训练数据进行训练,并且不使用任何外部训练的物体检测器。我们的研究表明,即使我们的方法没有利用外部的训练数据,除了能够对新类别进行基础训练外,它也不会降低学习类别的性能。此外,由于其类似于SSD的单级架构,我们的设计在计算效率上特别高[29]。
由于新查询类别与已学习类别的关系的影响,评估ZSG方法的性能是复杂的。为了使评估和区分更清楚,我们针对不同的情况定义了四种具体情况:(i)当查询词是新的(图1-d-f)(ii)当参考对象属于新的类别(图1-d)(iii)当参考对象与训练期间看到的对象“相似”但不存在后者(图1-e)(iv)当至少一个类似的物体也存在于测试图像中时(图1-f)(更多细节见第3.1节)。
为了支持对这四个案例的zero-shot grounding评估,我们引入了新的数据集,这些数据集是从现有的视觉基因组[23]和Flickr30k实体[35]中抽取的子样本。我们创建了上述四个案例的示例(数据集创建细节见第4.1节,对这些数据集的实验见第4.5节)。
我们的贡献可以总结如下:(i)我们介绍了zero-shot grounding问题,(ii)我们提出了一个简单但有效的架构ZSGNet,以解决当前阶段接地系统在这项任务中的局限性,(iii)我们创建了适用于评估zero-shot grounding的新数据集,以及(iv)我们评估了这些数据集的性能,并展示了我们方法的有效性。我们的代码和数据集已公开发布。

Related Work

Phrase grounding

在创建基础数据集(如Flickr30k、ReferIt、RefCoCo、RefCoCo、refcocoog、Visual Genome、GuessWhat[8,20,23,31,35,44,46])方面的大量工作对短语基础的成功至关重要。早期作品使用基于重建的方法[40]或将全局上下文和空间配置相结合[19]。最近的方法[7,34,49]直接在多模态特征空间中学习,并使用注意机制[9,45],这也扩展到对话系统中的短语基础[8,52]。很少有方法使用变分上下文[50]和通过选通机制的半监督学习[6]来研究无监督学习。
上述技术使用像FasterRCNN[39]或MaskR CNN[15]这样的对象检测器作为预处理步骤,以获得边界框和ROI池特征,从而有效地将它们限制在检测器的对象类别中。我们将检测和接地网络结合起来,直接从接地数据集学习,因此不涉及预处理步骤。

Multi Model Feature

多模态特征表示法有多种风格,如线性变换、串联、hadamard乘积[21]、双线性池[28],并在视觉语言任务中取得了成功,如VQA[3,4,13,47,48]、场景图生成[25,43]和图像字幕[30]。为了简单起见,我们坚持使用功能串联,并在短语基础上与以前的作品进行公平比较。

Single Stage Networks

用于目标检测的单级网络由于其实时推理速度快而受到广泛的欢迎。杰出的作品包括SSD[29]、YOLO[36–38]以及最近的FPN[26]和RetinaNet[27]。在这项工作中,我们将一个单级检测网络直接组合到接地框架中;除了实现zero shot grounding,它还可以实现高效的推理。

Zero-shot grounding

Zero-shot grounding尚未探索,但也有一些类似的作品。[14] 旨在开放词汇表对象检索,尽管它仍然假设在训练时可以看到所引用对象的实体。最近(2)提出零射击检测(ZSD),在这里他们考虑一组看不见的类,在列车时没有包围盒信息。在测试时,必须检测所有对象,包括看不见的类。但是,培训前需要一组背景课程,但在ZSG中不需要。

Approach

在这里插入图片描述

我们首先讨论Zero-shot grounding情况,然后描述将phrase grounding系统扩展到ZSG的局限性。最后,我们提出了一种新的体系结构来解决这些局限性。

3.1. ZSG Cases

我们现在详细描述Zero-shot grounding的四种情况。为简洁起见,我们使用表1中的notation。每种情况都定义了归为Zero-shot grounding示例的范围。此外,我们假设 Q Q Q(指图像中对象的单词)不是一个OOV(词汇表外单词),如果我们使用在大型语言语料库上训练的单词嵌入,这是合理的。

Case 0: Q ∉ W Q\notin{W} Q/W。之前的任何训练示例中都不包括查询名词Q。我们只看lemmatized word(词目化),所以同义词被认为是不同的(新奇的)单词。图1(d)-(f)是这种情况的例子。图1-c中的短语“蓝色汽车”也将被视为zero-shot,因为我们以前从未见过“汽车”这个词,尽管它是“汽车”的同义词。
Case 1: A ∉ C A\notin{C} A/C。这里,我们假设在训练时刻看到的对象属于一组预定义的类别,而引用的对象不属于这些类别。在图1-d中,“椅子”被认为是zero-shot,因为在训练时看不到这种类型。
Case 2: ∃ B ∃B B但是 ∀ b ∈ B ∀b∈B bB我们有 b ∉ T b\notin{T} b

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值