CP-DETR: Concept Prompt Guide DETR Toward Stronger Universal Object Detection(AAAI 2025)
最近关于通用物体检测的研究旨在将语言引入最先进的闭集检测器,然后通过构建大规模(文本区域)数据集进行训练,以推广开放集概念。然而,这些方法面临两个主要挑战:(i)如何有效地利用提示中的先验信息以泛化物体,以及(ii)如何在下游任务中减少对齐偏差,这两者在预训练以外的一些场景中导致次优性能。为了解决这些挑战,我们提出了一种强大的通用检测基础模型,称为CP-DETR,该模型在几乎所有场景中都具有竞争力,只需一个预训练权重。具体来说,我们设计了一种高效的提示视觉混合编码器,通过逐层和多尺度融合模块增强提示与视觉之间的信息互动。然后,混合编码器通过提示多标签损失和辅助检测头充分利用提示信息。除了文本提示外,我们还设计了两种实用的概念提示生成方法,即视觉提示和优化提示,通过具体的视觉示例提取抽象概念,并在下游任务中稳定地减少对齐偏差。凭借这些有效的设计,CP-DETR在广泛的场景中表现出卓越的通用检测性能。例如,我们的Swin-T主干模型在LVIS上达到了47.6的零样本AP,而Swin-L主干模型在ODinW35上达到了32.2的零样本AP。此外,我们的视觉提示生成方法通过交互检测在COCO验证集上达到了68.4的AP,而优化提示在ODinW13上达到了73.1的全样本AP。
SCKD: Semi-Supervised Cross-Modality Knowledge Distillation for 4D Radar Object Detection(AAAI 2025)
对于自动驾驶汽车来说,3D 目标检测是一项基础的感知任务。使用 4D 毫米波雷达完成这样的任务极具吸引力,因为该传感器能够获取类似于激光雷达的 3D 点云,同时在恶劣天气下仍能保持稳定的测量。然而,由于雷达点云的高稀疏性和噪声,现有方法的性能仍然远低于预期。在本文中,我们针对基于 4D 雷达的 3D 目标检测提出了一种新颖