Detecting Everything in the Open World: Towards Universal Object Detection(论文解析)

黄阳老师

已于 2023-11-16 14:21:35 修改

阅读量219

点赞数

文章标签：目标检测人工智能计算机视觉

于 2023-10-27 11:07:44 首次发布

本文链接：https://blog.csdn.net/qq_22583741/article/details/134051385

版权

本文提出了UniDetector，一个通用目标检测框架，旨在在开放世界中识别大量类别。通过异构标签空间训练和开放世界推理， UniDetector可以处理未见过的类别。实验表明，即使在没有见过的类别上，UniDetector也能超越传统方法，展示出强大的零样本泛化能力。此外，它在封闭世界任务中也取得最新成果，证明了其在不同场景下的通用性。

摘要由CSDN通过智能技术生成

Detecting Everything in the Open World: Towards Universal Object Detection

摘要

在本文中，我们正式探讨了通用目标检测，旨在检测每个场景并预测每个类别。依赖于人工注释、有限的视觉信息以及开放世界中的新颖类别严重限制了传统检测器的通用性。我们提出了UniDetector，这是一个通用目标检测器，具有在开放世界中识别大量类别的能力。UniDetector通用性的关键点包括：1) 通过对齐图像和文本空间，它利用多个来源和异构标签空间的图像进行训练，确保了通用表示的充分信息。2) 它很容易推广到开放世界，同时保持了已知和未知类别之间的平衡，这得益于视觉和语言模态的丰富信息。3) 通过我们提出的解耦式训练方式和概率校准，它进一步提高了对新颖类别的泛化能力。这些贡献使UniDetector能够检测超过7,000个类别，迄今为止可测量的最大类别规模，只有约500个类别参与了训练。我们的UniDetector在大词汇数据集上表现出强大的零样本泛化能力-它平均超过传统监督基线超过4%，而没有看到任何对应的图像。在13个具有不同场景的公共检测数据集上，UniDetector仅使用3%的训练数据就实现了最先进的性能。

1 介绍

通用目标检测旨在在每个场景中检测所有物体。尽管现有的目标检测器已经取得了显著的进展，但它们严重依赖于大规模基准数据集。然而，目标检测在类别和场景（即域）上有所不同。在开放世界中，相对于现有图像，存在显著差异并出现了未知类别，人们必须重新构建数据集以保证目标检测器的成功，这严重限制了它们在开放世界中的泛化能力。相比之下，即使是一个孩子也可以在新环境中迅速进行很好的泛化。因此，通用性成为了人工智能和人类之间的主要差距。一旦训练完成，通用目标检测器可以在未知情况下直接工作，无需进一步的重新训练，因此显着接近了使目标检测系统像人类一样智能的目标。

一个通用目标检测器应该具备以下两种能力。首先，它应该利用来自多个来源和异构标签空间的图像进行训练。为了确保检测器能够获得足够的信息以进行泛化，需要进行大规模的分类和定位的协作训练。理想的大规模学习需要包含多样化的图像类型，尽可能多的高质量边界框标注以及大规模类别词汇。然而，受限于人工标注者，这是无法实现的。在实践中，与小词汇数据集不同，大词汇数据集往往存在嘈杂的标注，有时甚至存在一致性问题。相比之下，专门的数据集只关注某些特定类别。为了涵盖足够多的类别和场景，检测器需要从所有上述图像中学习，从多个具有异构标签空间的来源中学习，以便它可以学到通用性的全面和完整的知识。其次，它应该在开放世界中有很好的泛化能力。特别是对于在训练期间未标注的新类别，检测器仍然可以预测类别标签而不会性能下降。然而，纯粹的视觉信息无法实现这一目标，因为完全的视觉学习需要人工标注以进行全面监督学习。

在本文中，我们正式讨论了通用目标检测的任务。为了实现通用目标检测器的上述两种能力，需要解决两个相应的挑战。第一个挑战是关于使用多源图像进行训练。来自不同来源的图像与异构的标签空间相关联。现有的检测器只能从一个标签空间预测类别，而数据集特定的分类和数据集之间的标注不一致性使得难以统一多个异构标签空间。第二个挑战是关于新类别的识别。受到图像文本预训练的最新成功的启发 [20, 39, 58]，我们利用它们的带有语言嵌入的预训练模型来识别未见过的类别。然而，全面监督训练使得检测器集中在训练期间出现的类别上。在推断时，模型将偏向基本类别，并为新类别产生不够自信的预测。虽然语言嵌入使得预测新类别成为可能，但它们的性能仍远远不及基本类别。

我们提出了UniDetector，这是一个通用目标检测框架，用于解决上述两个问题。借助语言空间的帮助，我们首先研究了可能的结构，以在异构标签空间中训练检测器，并发现分区结构既促进了特征共享，又同时避免了标签冲突。接下来，为了充分利用区域建议阶段对新类别的泛化能力，我们将建议生成阶段和RoI分类阶段分离开来，而不是将它们联合训练。这种训练范式很好地利用了它们的特点，从而有益于检测器的通用性。在分离的方式下，我们进一步提出了一个类别无关的定位网络（CLN），用于生成通用的区域建议。最后，我们提出了概率校准来去除预测的偏差。我们估计了所有类别的先验概率，然后根据先验概率调整了预测的类别分布。校准有效地提高了新类别的性能。

我们的主要贡献可以总结如下：
• 我们提出了UniDetector，这是一个通用的检测框架，使我们能够利用异构标签空间的图像并泛化到开放世界。据我们所知，这是第一个正式讨论通用目标检测的工作。
• 考虑到在识别新类别时的泛化能力差异，我们建议将建议生成和RoI分类的训练分离，以充分探索与类别相关的特征。
• 我们提出校准产生的概率，这样可以平衡预测的类别分布并提高新类别的自信心。

广泛的实验证明了UniDetector的强大通用性。它能识别最大的可测量的类别。在没有看到训练集中的任何图像的情况下，我们的UniDetector在现有的大词汇数据集上比全面监督方法获得了高出4%的AP。除了开放世界任务，我们的UniDetector在封闭世界方面取得了最新的结果 - 在COCO数据集上，使用纯CNN模型ResNet50和1×时间表，获得了49.3%的AP。
在这里插入图片描述
图1. 通用目标检测器的示意图。它旨在在每个场景中检测每个类别，并应具备能够利用来自多个来源和异构标签空间的图像进行训练，并在推断时泛化到开放世界的能力。

2 相关工作

目标检测旨在预测图像中每个对象的类别标签和边界框坐标。现有的方法通常可以分为两阶段和一阶段方法。两阶段检测器主要包括RCNN [15]及其变种[4, 14, 18, 43]。它们通常首先提取一系列区域提议，然后进行分类和回归。相比之下，一阶段检测器[31, 33, 42]直接为锚点生成分类结果。与这些方法不同，一些模型，如[26, 50, 61, 67]，是无锚点的目标检测方法。最近，基于Transformer的方法[5,10,27,60,71]也得到了快速发展。然而，大多数这些方法只能在封闭的场景中工作。

开放词汇的目标检测。传统的目标检测只能检测在训练时出现的类别。在通用目标检测中ÿ