OW-DETR: Open-world Detection Transformer（论文解析）

黄阳老师

已于 2023-11-30 21:12:42 修改

阅读量1.7k

点赞数 1

文章标签： transformer 深度学习计算机视觉

于 2023-05-31 19:09:47 首次发布

本文链接：https://blog.csdn.net/qq_22583741/article/details/130928327

版权

OW-DETR: Open-world Detection Transformer

摘要

开放世界对象检测（OWOD）是一个具有挑战性的计算机视觉问题，其中的任务是检测一组已知的对象类别，同时识别未知对象。此外，模型必须逐步学习在下一个训练片段中变得已知的新类。与标准目标检测不同，OWOD设置对在潜在未知对象上生成高质量候选框、将未知对象与背景分离以及检测各种未知对象提出了重大挑战。在这里，我们介绍了一种新的端到端的基于transformer的框架，OW-DETR，为于开放世界的目标检测。OW-DETR包括三个专用组件，即，注意力驱动的伪标签，新类分类和对象评分，以明确地解决上述OWOD的挑战。我们的OW-DETR明确编码多尺度上下文信息，具有较少的归纳偏差，使知识转移从已知类到未知类，可以更好地区分未知类和背景。在两个基准上进行综合实验：MS-COCO和PASCAL VOC。广泛的消融实验揭示了我们提出方法的优点。此外，我们的模型优于最近推出的OWOD方法ORE，在MS-COCO上的未知类召回率方面的绝对增益范围从1.8%到3.3%。在增量目标检测的情况下，OW-DETR优于PASCAL VOC上所有设置的最新技术。我们的代码可在https://github.com/akshitac8/OW-DETR获得。

1.介绍

开放世界对象检测（OWOD）放宽了已知类出现在推理中的封闭世界的假设。在OWOD范例[15]中，在每个训练片段中，模型学习检测给定的已知对象集合，同时能够识别未知对象。这些标记的未知类可以被转发到oracle检测器，其可以标记几个感兴趣类别。给定这些新的已知类，模型将继续增量地更新其知识，而无需从头开始对先前已知的类进行重新训练。这个迭代学习过程在模型的生命周期内继续循环。

在OWOD设置中未知对象类别的识别对传统的检测器提出了重大挑战。首先，除了针对所见对象的准确候选框集之外，检测器还必须为潜在未知对象生成高质量候选框。其次，模型应该能够利用其关于已经看到的对象的知识将未知对象从背景中分离出来，从而学习什么构成有效对象。最后，必须检测不同大小的对象，同时灵活地对它们丰富的上下文和与共同出现的对象的关系进行建模。

最近，[15]的工作介绍了一种基于两阶段Faster R-CNN [32]流程的开放世界目标检测器ORE。由于在开放世界范式下没有未知对象的注释可供训练，ORE提出利用自动标注步骤来获取一组用于训练的伪未知对象。自动标注是在由区域提议网络（RPN）输出的与类别无关的提议上执行的。那些与已知目标不重叠但具有高“目标性”分数的提议被自动标记为未知，并用于训练。然后，这些自动标记的未知对象与已知对象一起用于执行潜在空间聚类。这样的聚类试图在潜在空间中将多个已知类别和未知类别分开，并有助于学习未知类别的原型。此外，ORE学习了一个基于能量的二元分类器，用于区分未知类别和与类别无关的已知类别。

尽管首次引入并探索了具有挑战性的OWOD问题表述，ORE仍然存在一些问题。(i) ORE依赖于一个带有弱监督的验证集，用于估计其基于能量的分类器中新类别的分布，但这并不完善。 (ii) 为了执行对比聚类，ORE学习了一个单一的潜在原型来表示未知类别，这不足以模拟未知对象中常见的多样的内部类别变化。因此，这可能导致已知类别和未知类别之间的分离不够优化。(iii) 由于采用基于卷积的设计，ORE未明确编码由于包含多样对象的图像中的上下文信息而产生的远距离依赖关系，而这些信息对于捕获上下文信息至关重要。作者着手设计方法缓解以上问题，以应对 OWOD 任务。

基于上述观察，引入了一个基于视觉 transformer 的多尺度上下文感知检测框架，该框架具有专门的组件来处理开放世界任务，包括注意力驱动的伪标签、新类别分类和客观性评分，以有效地检测图像中的未知目标，如图1所示：
在这里插入图片描述
图1.OW-DETR的可视化说明用于开放世界对象检测（OWOD），这里，利用从中间特征获得的注意力图来对对象查询进行评分。查询的对象性得分然后被用来识别伪未知类。在这些伪未知类和真实对象的已知类之间强制分离以检测新的类。此外，还学习背景和前景之间的分离（已知+未知），用于有效的知识转移从已知类前景对象的特征。我们的OW-DETR显式编码多尺度上下文，具有较少的归纳偏差，并假设没有监督未知对象，因此非常适合OWOD问题。

具体来说，与 ORE 相比 (two-stage CNN pipeline)，这里的方法是基于 transformer 的 single-stage 框架，只需要较少的归纳偏置，可以在多尺度上对长期依赖进行编码以丰富上下文信息。与 ORE 不同的是，ORE 依赖于一个保留验证集来估计新类别的分布，本文的方法假设对未知的情况不进行监督，这样更加接近于真正的开放世界场景。总的来说，作者的新设计提供了更大的灵活性，使用更加宽的上下文建模和更加少的假设来解决开放世界目标检测问题。论文的主要贡献是：
(1) 提出了一种基于 transformer 的开放世界检测器 (OW-DETR)，该检测器可以更加好地模拟具有多尺度自注意力和可变接收域的场景，此外还可以减少对开放世界设置的假设以减少归纳偏置；

(2) 提出了一种注意力驱动伪标签方案，用于选择注意值较高但又不属于任何已知类的目标 query boxes 作为未知类；

（3）利用伪未知项和已知项来学习新类别分类器，以区分未知目标和已知目标；

(4) 引入了一个目标性分支，通过使知识从已知类转移到未知类 (构成前景目标的特征) 来有效地学习前景目标(已知的、伪未知的) 和背景之间的分离；

(5) 在两个流行的基准上进行了大量的实验，证明了所提的 OW-DETR 方法的有效性，对于 OWOD 和增量目标检测任务，OW-DETR 优于最近提出的 ORE，在MS-COCO上，OW-DETR在未知类召回率方面比ORE实现了1.8%至3.3%的绝对增益。

2.开放世界检测的transformer

问题表述Kt 表示时间 t 处的一组已知对象类别，而 Dt 表示一个包含 N 张带有相应标签 Yt 的图像的数据集。每个 Yi 代表图像中注释的一组 K 个对象实例的标签，其中 yk 代表一个带有类标签 lk 的边界框，坐标 xk、yk、wk、hk。此外，该公式包括一组未知类别，表示为 U，在测试时可能会遇到这些类别。该集合包括除已知对象类别集以外的所有类。

如在第一部分中所讨论的，在开放世界对象检测（OWOD）设置中，除了检测先前遇到的已知类C之外，Mt模型还在训练时间t处将未看见的类实例识别为属于未知类（由标记0表示）。然后，由Mt标识的一组未知实例U被转发到oracle检测器，该oracle检测器标记n个感兴趣的新类，并提供相应的一组新的训练示例。然后，oracle学习器将这组新类递增地添加到已知类，使得Kt+1 =Kt + {C + 1，…，C+n}。对于先前的类Kt，只有少数示例可以存储在有界存储器中，从而模仿真实世界设置中的隐私问题、有限的计算和存储器资源。然后，Mt被递增地训练，而不需要在整个数据集上从头开始重新训练，以获得更新的模型Mt+1，其可以检测Kt+1中的所有对象类。这个循环在检测器的生命周期中持续，检测器在每次训练中都用新知识更新自己，而不会忘记以前学习的课程。
在这里插入图片描述
图2.OW-DETR框架。我们的方法使用标准的deformable DETR解决OWOD问题：通过引入（i）一个注意力驱动的伪标记方案来选择候选未知类查询框，（ii&#x

最低0.47元/天解锁文章

黄阳老师

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
1
评论
OW-DETR: Open-world Detection Transformer（论文解析）

开放世界对象检测（OWOD）是一个具有挑战性的计算机视觉问题，其中的任务是检测一组已知的对象类别，同时识别未知对象。此外，模型必须逐步学习在下一个训练片段中变得已知的新类。与标准目标检测不同，OWOD设置对在潜在未知对象上生成高质量候选框、将未知对象与背景分离以及检测各种未知对象提出了重大挑战。在这里，我们介绍了一种新的端到端的基于transformer的框架，OW-DETR，为于开放世界的目标检测。OW-DETR包括三个专用组件，即，注意力驱动的伪标签，新类分类和对象评分，以明确地解决上述OWOD的挑战。
复制链接

扫一扫