Detecting the open-world objects with the help of the “Brain”

黄阳老师

已于 2024-04-09 09:16:36 修改

阅读量933

点赞数 17

文章标签：目标跟踪人工智能计算机视觉

于 2024-03-27 13:40:01 首次发布

本文链接：https://blog.csdn.net/qq_22583741/article/details/137049717

版权

Detecting the open-world objects with the help of the “Brain”

摘要

Open World Object Detection (OWOD)是一项新颖的计算机视觉任务，具有相当大的挑战，它弥合了经典目标检测（OD）基准和真实世界目标检测之间的差距。除了检测和分类已知的对象之外，OWOD算法还应该能够检测未知的对象，并逐步学习它们。人类在环境中识别未知对象的自然本能主要依赖于他们大脑的知识库。模型仅通过学习几个小数据集的注释就能做到这一点是很困难的。大型预训练的基于语言和图像的模型——VL（即GLIP）对于开放世界具有丰富的知识，但受限于文本提示。我们提出利用VL作为开放世界检测器的“大脑”，通过简单地生成未知标签。利用它并不简单，因为未知标签会影响模型对已知对象的学习。在本文中，我们通过提出减权损失函数和解耦检测结构来缓解这些问题。此外，我们的检测器通过我们的伪标签方案利用“大脑”来学习VL之外的新对象。在MS-COCO和PASCAL VOC上进行的全面实验（我们的结果以粗体字显示）表明，我们的模型在两个现有分割（ORE分割中的39.0、36.7、36.1对12.1、9.4、11.6，OW-DETR分割中的60.9、60.0、58.6对5.7、6.2、6.9）的U-Recall方面明显优于现有的开放世界检测器，而在已知类别上不会损失性能。与GLIP相比，我们的模型仍然在开放世界目标检测方面表现更好（ORE分割中的39.0、36.7、36.1对37.0、35.5、34.9，OW-DETR分割中的60.9、60.0、58.6对52.6、54.5、53.3），并具有更快的推理速度（每张图像9.22秒vs每张图像0.08秒）和更低的计算成本（FLOPs 965GMac对212GMac，参数#321.9M对42.9M）。代码可在https://github.com/xiaomabufei/DOWB获取。

引言

开放世界目标检测（OWOD）是计算机视觉中更实际的检测问题，有助于在真实世界中发展目标检测（OD）。在OWOD范式内，模型的寿命通过迭代学习过程被推动。在每一轮中，训练在已知对象注释数据上的模型被期望能够检测已知对象和未知对象。然后，人类注释员逐渐标记了其中一些未知类别的标签。给定这些新添加的注释，模型会继续增量更新其知识，而无需从头开始重新训练。

在现有的工作中，模型被期望通过几个规模较小的数据集来了解开放世界。然而，这些数据集的注释太少，无法为模型提供足够的对象属性。通过这些数据集很难使模型实现理想目标。人类识别他们以前未见过的对象的能力在很大程度上取决于他们大脑的知识库。受到人类如何面对开放世界的启发，我们提出寻找一个“大脑”来辅助开放世界检测器的学习过程。

幸运的是，大规模预训练的语言-图像模型（VL）可以担任这个角色。由于无数的参数、开放数据集和训练成本，它们对开放世界有丰富的知识。然而，它们的检测不能脱离文本提示的参与。在检测之前，必须预先列出所有对象的文本提示，以便它们可以被检测到，而未列出文本提示的对象则无法被检测到。然而，在开放世界中有无数种类的对象，而且种类不断增加。因此，VL无法理想地检测开放世界中的所有类别。此外，它们的检测速度也受到批评，原因如下：i) 参数和FLOPs数量庞大。ii) 大规模预训练的基于语言-图像的模型只能使用几个文本提示进行推断，因此当提示数量较大时，它们必须进行多次推断以获得检测性能。

在本文中，我们提议利用大规模预训练的基于语言-图像的模型来帮助我们的检测器了解开放世界。我们的模型借鉴了大规模预训练的基于语言-图像的模型的知识，并利用这些知识更好地理解世界，以便识别“Brain”之外的未见过的对象。此外，我们的检测器将所有超出已知集合的对象标识为“未知”，而不是精确的类别。因此，文本提示不能限制我们的检测器。在使用“Brain”时，我们简单地利用其自身的知识生成未知标签来辅助训练过程。为了公平比较，我们使用与现有方法[12, 36, 15, 33]相同的数据集和训练成本，在训练阶段没有使用额外的数据增强。此外，我们做了以下工作来解决使用“Brain”时遇到的问题。

(I) 为了防止模型仅学习“未知标签”中的未知类别，我们设置了一个边界框得分预测分支，以帮助检测器探索大规模预训练的基于语言-图像模型之外的未见过的对象。边界框得分分支利用了注释中已知对象和大规模预训练的语言-图像模型中的未知对象的知识，来学习前景和背景之间的差异。然后，我们利用预测的边界框得分来从每次训练迭代的匹配过程后剩余的回归框中选择伪未知标签。因此，我们的检测器可以持续进化并学习大规模预训练的基于语言-图像模型之外的未知对象。

(II) 直接利用生成的标签是非常困难的，因为它们的质量无法保证。对于OWOD来说，检测已知对象的性能也至关重要。通过实验证明，直接使用生成的标签会严重影响模型对原始注释的学习能力，而且模型在检测已知对象方面的性能会受到严重影响。为了缓解这一问题，我们提出了针对生成标签的降权训练损失，该损失利用了来自大规模预训练的基于语言-图像模型的标签对象置信度生成软标签，并在训练过程中减少了总损失中未知损失的权重。

(III) 在“未知对象”中存在具有与已知类别高度相似特征的对象，这可能会极大地影响开放世界对象识别的过程。这个问题不仅影响识别过程，还影响到使用耦合信息进行两个任务的模型的定位过程。因此，我们提出了解耦检测过程的方法。同时，为了缓解解耦结构不可避免地导致的同一对象的类别和位置之间的混淆，我们提出了级联结构，通过两个解码器解耦检测过程，并通过级联方式连接这两个解码器。在这种结构中，前景定位可以免受类别知识的影响，因为识别损失被后解码器稀释。此外，识别过程可以利用定位信息，因为它利用前解码器的输出嵌入作为输入查询。

我们进行了大量实验，结果表明我们的模型在开放世界对象检测方面优于大规模预训练的基于语言-图像模型，尽管它只使用了少量的训练数据和计算资源。我们的贡献可以总结为四个方面：
• 我们首次提出利用大规模预训练的基于语言-图像模型作为“大脑”，通过简单生成未知标签来辅助开放世界检测器的学习过程。通过边界框得分分支的帮助，开放世界检测器可以不断演变并学习大规模预训练的基于语言-图像模型之外的新知识。
• 为了减轻生成标签对检测已知对象性能的影响，我们提出了一种降低检测器对未知标签学习过程的权重的训练损失函数。
• 我们提出了一种级联解耦检测变压器结构，以减轻未知对象对检测已知对象造成的影响。
• 我们在两个流行的基准数据集上进行了大量实验证明了我们模型的有效性。它优于所有开放世界对象检测和增量对象检测的最新方法。值得注意的是，我们的模型利用最少的训练资源就超过了大规模预训练的基于语言-图像模型在开放世界对象检测方面的表现。

2 相关工作

大型预训练语言-图像模型：近年来，受到视觉-语言（VL）预训练方法的成功启发 [27]，以及它们良好的零样本能力，一些研究 [10, 18, 16, 37, 35] 尝试使用预训练的视觉语言模型在更广泛的领域进行零样本检测。ViLD [10] 提出了一种零样本检测方法，从预训练的视觉语言图像分类模型中提取知识。GLIP [18] 试图使用点积操作来对齐区域和语言特征，并可以在接地和检测数据上进行端到端训练。MDETR [16] 提出了一种端到端的调制探测器，可以在图像中检测对象，条件是一个原始文本查询，比如一个标题或一个问题。DETCLIP [35] 提出了一种并行的视觉概念预训练方法，用于开放式世界检测，通过从设计的概念词典中丰富知识。

开放世界目标检测（OWOD）：Joseph等人 [15] 提出了OWOD任务和ORE，后者采用了基于特征空间对比聚类的faster-RCNN模型，一个基于RPN的未知对象检测器以及基于能量的未知对象识别器（EBUI）来实现OWOD目标。最近，各种工作 [36, 33, 38, 34, 24] 试图扩展ORE。OCPL [36] 提出了学习已知类别在特征空间中的判别嵌入，以最小化已知和未知类别的重叠分布。吴等人 [33] 提出了一个双分支的以物体性为中心的开放世界目标检测框架，包括偏置引导检测器和以物体性为中心的校准器。OW-DETR [12] 是一种基于Transformer的方法，提出利用伪标记方案监督未知对象检测，其中具有较高主干激活的不匹配对象提议被选为未知对象。

3 问题定义

𝐾_𝑡 = {1, 2, . . . , 𝐶} 表示已知目标类别集合，而𝑈_𝑡 = {𝐶 + 1, . . .} 表示在时间𝑡可能在测试时遇到的未知类别。我们在数据集𝐷_𝑡 = {𝐽_𝑡,𝐿_𝑡} 中对已知目标类别𝐾_𝑡 进行了标记，其中𝐽_𝑡 表示输入图像，𝐿_𝑡 表示时间𝑡的相应标签。训练图像集包括𝑀个图像𝐽_𝑡 = {𝑖_1, 𝑖_2, . . . , 𝑖_𝑀} 和相应的标签𝐿_𝑡 = {ℓ_1, ℓ_2, . . . , ℓ_𝑀}。每个ℓ_𝑖 = {𝑇_1,𝑇_2, . . . ,𝑇_𝑁} 表示一组包含𝑁个目标实例的类别标签𝑐_𝑛 ⊂ 𝐾_𝑡 和位置的集合，其中{𝑥_𝑛, 𝑦_𝑛, 𝑤_𝑛, ℎ_𝑛} 表示边界框的中心坐标、宽度和高度。

在闭集目标检测中的人为假设和限制在开放世界目标检测中被移除，这使得目标检测任务更贴近真实生活。它要求训练好的模型𝑀_𝑡 能够检测到先前遇到的已知类别𝐶，并将未见过的类别实例识别为未知类别。此外，它要求目标检测器能够增量更新新知识，并且这个循环会在检测器的寿命内持续下去。在增量更新阶段，由𝑀_𝑡 识别的未知实例需要进行手动标注。随着相应的训练样本一起，它们将更新𝐷_𝑡 为𝐷_𝑡+1，𝐾_𝑡 为𝐾_𝑡+1 = {1, 2, . . . , 𝐶, . . . , 𝐶 + 𝑛}。该模型将这𝑛个新类别添加到已知类别中，并在整个数据集𝐷_𝑡+1 上不重新从头开始训练，而是更新为𝑀_𝑡+1。

4 方法

本节详细阐述了提出的框架。在第4.1节中，我们介绍了提议框架的整体方案。在第4.2、4.3和4.4节中，我们分别介绍了开放世界目标检测器、助手以及匹配和伪标记过程。然后，在第4.5和4.6节中，我们描述了下降权重训练策略和推理阶段。

4.1总体方案

图3说明了我们框架的整体方案。对于给定的图像 𝑥 ∈ R𝐻×𝑊×3，首先将其同时发送到开放世界检测器和助手中。检测器利用输入的视觉特征来预测定位、框分数和分类。助手利用大型预训练的基于语言和图像的模型从输入中挖掘更多的开放世界信息。在训练阶段，我们匹配和预测开放世界标签通过回归损失、分类和标签置信度。匹配后，根据预测的框分数选择伪标签。然后利用所有标签通过下降权重训练损失函数来训练开放世界检测器。

4.2 级联开放世界对象检测器

开放世界检测器首先使用分层特征提取骨干网络来提取多尺度特征 $Z_i \in R^{H/4^{i-1} \times W/4^{i-1} \times C_s}$

最低0.47元/天解锁文章

黄阳老师

关注

17
点赞
踩
19

收藏

觉得还不错? 一键收藏
打赏
0
评论
Detecting the open-world objects with the help of the “Brain”

Open World Object Detection (OWOD)是一项新颖的计算机视觉任务，具有相当大的挑战，它弥合了经典目标检测（OD）基准和真实世界目标检测之间的差距。除了检测和分类已知的对象之外，OWOD算法还应该能够检测未知的对象，并逐步学习它们。人类在环境中识别未知对象的自然本能主要依赖于他们大脑的知识库。模型仅通过学习几个小数据集的注释就能做到这一点是很困难的。大型预训练的基于语言和图像的模型——VL（即GLIP）对于开放世界具有丰富的知识，但受限于文本提示。
复制链接

扫一扫