通过视觉和语言知识提炼进行开放词汇的物体检测
摘要
- 我们的目标是推进开放词汇的物体检测,它可以检测由任意文本输入描述的物体。
- 根本的挑战是训练数据的可用性。现有的物体检测数据集只包含数百个类别,而且进一步扩展成本很高。
- 为了克服这一挑战,我们提出了ViLD,一种通过视觉和语言知识提炼的训练方法。我们的方法是将预先训练好的开放词汇图像分类模型(教师)的知识提炼成两阶段的检测器(学生)。具体来说,我们使用教师模型来编码类别文本和物体建议的图像区域。然后我们训练一个学生检测器,其检测到的盒子的区域嵌入与教师推断的文本和图像嵌入相一致。我们以LVIS为基准,将所有罕见的类别作为训练期间未见的新类别。
- ViLD获得了16.1个掩码APr,甚至比以ResNet-50为骨干的有监督的对应模型还要好3.8。该模型可以直接转移到其他数据集而不需要进行微调,在PASCAL VOC、COCO和Objects365上分别获得72.2 AP50、36.6 AP和11.8 AP。在COCO上,ViLD比以前的SOTA(Zareian等人,2021年)在新的AP上高出4.8,在整体AP上高出11.4。
引言
考虑到图1,我们是否可以设计出超越只识别训练标签中存在的基本类别(如玩具)的物体检测器,并扩大词汇量以检测新的类别(如玩具大象)?