通用检测模型大集结：开放世界物体检测，识别场景中任意目标

自动驾驶之心

于 2023-12-23 00:00:43 发布

阅读量572

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247580155&idx=3&sn=adeee5c43e688ace6096f731ee31197c&chksm=cfcd2d783d57a3665cab079336669b881a2b40d94c1e6cafc1aa7e511a25457cb24aaac07005&scene=126&sessionid=0

版权

作者 | Mark·AI 编辑 | 汽车人

原文链接：https://zhuanlan.zhihu.com/p/673291930

点击下方卡片，关注“自动驾驶之心”公众号

ADAS巨卷干货，即可获取

点击进入→自动驾驶之心【目标检测】技术交流群

本文只做学术分享，如有侵权，联系删文

现有的目标检测器通常依赖于大规模基准数据集，但在不同的物体类别和场景（即领域）之间存在着巨大的性能差异，尤其是在开放世界中，当出现了与已知类别差异很大的未见类别，依赖基准数据集训练的检测模型大概率会失效。不能识别未知目标的短板也极大限制了目标检测器在实际场景中的泛化能力。例如，在自动驾驶场景中，未知物体的出现可能影响行车安全。

自动驾驶场景下意外跌落的未知物体可能影响行车安全

因此需要开发具有强大泛化能力的开放世界物体检测器（Open World Object Detection, OWOD），能够有效地处理未知类别和新领域的数据，其中模型的任务是：

不需要重新构建数据集或进行大规模的重新训练；
识别未被引入的物体实例为“未知”，而无需明确监督学习才能完成此操作；
在逐渐收到相应标签时，增量学习这些已识别的未知类别，而不会遗忘先前学习的类别。

通用/开放世界-物体检测模型集合

本文列举近三年比较前沿的工作，具体如下：

01. UniDetector

融合多个开源数据集

为了实现通用目标检测器能识别所有物体的能力，需要解决两个相应的挑战：

第一个是使用多源图像进行训练。从不同来源收集的图像与异构标签空间相关联。现有的检测器只能从一个标签空间预测类，数据集之间特定于数据集的分类和注释不一致使得很难统一多个异构标签空间。
第二个是关于新类别歧视。使用CLIP图像-文本的预训练模型和语言嵌入来识别看不见的类别，然而，完全监督的训练使检测器专注于训练期间出现的类别。在推理时，模型将偏向于基类，并为新类产生低置信度的预测。尽管语言嵌入使得预测新类成为可能，但它们的性能仍然远低于基本类别。

UniDetector的主要贡献：

提出一个解决通用对象检测问题的框架，对应上图Step2:异构标签空间训练过程中使用一种解耦的方式训练，而不是采用联合的方式，从而该训练框架能够处理异构标签空间的图像并泛化到开放世界，解决多源图像训练的问题。
提出解耦Proposal生成阶段和RoI分类阶段，对应上图Step3: Proposal生成通过传统的ImageNet预训练参数进行初始化，训练之后会产生一系列region proposals。RoI分类阶段使用预训练的图像文本参数初始化，用于预测未知类别。并引入概率校准来平衡预测的类别分布并提高新类别的自信度，解决新类别歧视的问题。

02. Randbox

RandBox主要针对现有方法存在未知目标低召回率的问题，从提高任意目标召回的角度，该工作是不是可以用于深度学习训练数据集中的漏标检查问题，主要改进如下：

随机生成区域Proposal，而不是使用在已知对象上训练的Proposal采样器，这样可以探索更多可能的未知对象位置。
提出了一个匹配分数，不惩罚未与已知对象匹配的Proposal，这样可以探索更多可能的未知对象提议。

随机Proposal检测器，在训练中每个图像上随机生成500个边界框作为区域提议。基于Faster R-CNN的方法使用RPN预测的物体性作为匹配分数来选择Unknown-FG。然而，RPN被训练为仅在与已知对象匹配的Proposal上产生高分，因此惩罚了那些未匹配的Proposal。没有RPN的方法（如DETR）使用ROI特征的平均激活值。然而，这种启发式方法非常不可靠，未知对象Proposal经常被错误地放置在BG子集中，并被惩罚为“背景”。

03. OW-DETR

开放世界目标检测对于在潜在未知对象上生成高质量候选框，将未知对象与背景分离以及检测多样的未知对象提出了重大挑战。OW-DETR给出了一种端到端基于Transformer的解决方案，其中包括三个专用组件，即基于注意力的伪标记、新颖性分类和目标性评分。

如上图所示。首先，从中间特征获得的注意力图用于对物体查询进行评分。然后，查询的目标分数用于识别伪未知对象。在这些伪未知对象和已知对象之间强制执行分离以检测新类别。此外，还学习了背景和前景（已知+未知）之间的分离，以便从已知类别向未知类别有效地进行特征的知识转移。

其中，基于注意力的伪标记方案是主要来获取候选未知查询的，从中间特征的注意力图上求取各个查询的平均分数（比如a-e），然后再用top-k来分配是不是物体，此阶段只区分unknown和no-objects两类，上图中a,b,c是unknown类别，d,e是非目标类别。同时针对上文提到的新类别歧视的问题，OW-DETR在训练中对未知对象没有监督，因此非常适合OWOD问题。

04. Object Localization Network

开放世界目标检测在训练阶段会出现新类别歧视的问题，该文的思路是既然你存在该问题，那么我直接舍掉类别分类的问题，转而提出了一种简单而有效的无分类器的 Object Localization Network 目标定位网络。

该网络纯粹通过区域的位置和形状与任何真实对象（例如中心度和IoU）的重叠程度来估计每个区域的目标性。这一简单策略学习了可泛化的对象性，在大词汇量数据集LVIS上展示了对长尾对象检测的优点，其中在罕见和常见类别中均有明显改善，对比结果如下图：

05. OWOD

论文的开放世界目标检测模型使用基于能量的分类头和对未知类别敏感的RPN来识别潜在的未知对象，此外，在特征空间中进行对比学习，以学习有区分性的聚类，并可以灵活地以连续的方式添加新的类别，而不会遗忘先前的类别。在每次增量学习步骤中，模型识别未知对象（表示为“？”），这些对象逐渐被标记（作为蓝色圆圈）并添加到现有的知识库（绿色圆圈）中。

上图（a）是模型在学习了一些类别之后产生的结果，这些类别不包括苹果和橙子。模型能够识别并正确地将它们标记为未知。一段时间后，当模型最终被教导去检测苹果和橙子时，这些实例被正确地标记，图（b）所示；模型不会忘记如何检测人。一个未知类实例仍然存在，并成功被检测为未知。

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、协同感知、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

视频官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

近2000人的交流社区，涉及30+自动驾驶技术栈学习路线，想要了解更多自动驾驶感知（2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布，欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频，期待交流！

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、点云处理、端到端自动驾驶、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）

④【自动驾驶之心】平台矩阵，欢迎联系我们！

自动驾驶之心

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
通用检测模型大集结：开放世界物体检测，识别场景中任意目标

作者|Mark·AI 编辑|汽车人原文链接：https://zhuanlan.zhihu.com/p/673291930点击下方卡片，关注“自动驾驶之心”公众号ADAS巨卷干货，即可获取点击进入→自动驾驶之心【目标检测】技术交流群本文只做学术分享，如有侵权，联系删文现有的目标检测器通常依赖于大规模基准数据集，但在不同的物体类别和场景（即领域）之间存在着巨大的性能差异，尤其是在开放世界中，...
复制链接

扫一扫