OPEN-VOCABULARY OBJECT DETECTION VIAVISION AND LANGUAGE KNOWLEDGE DISTILLATION

最新推荐文章于 2024-06-06 12:35:02 发布

appron

最新推荐文章于 2024-06-06 12:35:02 发布

阅读量2.4k

点赞数 1

分类专栏：开放集识别文章标签：目标检测计算机视觉深度学习

本文链接：https://blog.csdn.net/pingguolou/article/details/125079651

版权

通过视觉和语言知识提炼进行开放词汇的物体检测

摘要

我们的目标是推进开放词汇的物体检测，它可以检测由任意文本输入描述的物体。
根本的挑战是训练数据的可用性。现有的物体检测数据集只包含数百个类别，而且进一步扩展成本很高。
为了克服这一挑战，我们提出了ViLD，一种通过视觉和语言知识提炼的训练方法。我们的方法是将预先训练好的开放词汇图像分类模型（教师）的知识提炼成两阶段的检测器（学生）。具体来说，我们使用教师模型来编码类别文本和物体建议的图像区域。然后我们训练一个学生检测器，其检测到的盒子的区域嵌入与教师推断的文本和图像嵌入相一致。我们以LVIS为基准，将所有罕见的类别作为训练期间未见的新类别。
ViLD获得了16.1个掩码APr，甚至比以ResNet-50为骨干的有监督的对应模型还要好3.8。该模型可以直接转移到其他数据集而不需要进行微调，在PASCAL VOC、COCO和Objects365上分别获得72.2 AP50、36.6 AP和11.8 AP。在COCO上，ViLD比以前的SOTA（Zareian等人，2021年）在新的AP上高出4.8，在整体AP上高出11.4。

引言

考虑到图1，我们是否可以设计出超越只识别训练标签中存在的基本类别（如玩具）的物体检测器，并扩大词汇量以检测新的类别（如玩具大象）？

关注