3D 目标检测
UniMODE:统一的单目 3D 对象检测
实现包括室内和室外场景的统一单目 3D 对象检测在机器人导航等应用中具有重要意义。然而,涉及数据的各种场景来训练模型会带来挑战,因为它们具有显著不同的特性,例如不同的几何特性和异构的域分布。为了解决这些挑战,我们构建了一种基于鸟瞰图(BEV)检测范式的检测器。
LaneCPP:使用物理优先级的连续 3D 车道检测
单目 3D 车道检测已成为自动驾驶领域的一个基本问题,自动驾驶包括寻找路面和定位车道标线的任务。
MonoDiff:使用扩散模型的单目 3D 对象检测和姿势估计
由于缺乏 3D 感知带来的高度不确定性,从单视图像中进行 3D 目标检测和姿态估计是具有挑战性的。作为一种解决方案,最近的单目 3D 检测方法利用诸如立体图像对和 LiDAR 点云等额外的模式来增强图像特征,但代价是额外的注释成本。我们建议使用扩散模型来学习单目 3D 检测的有效表示,而不需要额外的模式或训练数据。我们提出了一个新的框架 MonoDiff,它使用反向扩散过程来估计 3D 边界框和方向。
跨数据集 3D 目标检测的无监督域自适应伪标签精炼
最近的自训练技术在用于 3D 对象检测的无监督域自适应(3D UDA)方面显示出显著的改进。这些技术通常选择伪标签,即 3D 框来监督目标域的模型。然而,这种选择过程不可避免地引入了不可靠的 3D 框,其中 3D 点不能被确定地分配为前景或背景。以前的技术通过将这些框重新加权为伪标签来缓解这一问题,但这些框仍然会干扰训练过程。为了解决这一问题,本文提出了一种新的伪标签精炼框架。
VSRD:用于弱监督3D目标检测的实例感知体积轮廓绘制
单目 3D 对象检测由于其在单目深度估计中固有的不适定性,在 3D 场景理解中构成了重大挑战。现有的方法在很大程度上依赖于使用丰富的 3D 标签的监督学习,这些标签通常是通过在激光雷达点云上进行昂贵且劳动密集的注释来获得的。为了解决这个问题,我们提出了一种新的弱监督 3D 目标检测框架,称为 VSRD(检测的体积轮廓绘制),用于训练没有任何 3D 监督但只有弱 2D 监督的 3D 目标检测器。
海鸟:具有骰子丢失的鸟瞰图分割改进了大型物体的单目 3D 检测
单目 3D 检测器在汽车和较小物体上实现了卓越的性能。然而,它们在较大物体上的性能下降会导致致命的事故。一些研究者将这种失败归因于训练数据稀缺或大型物体对感受野的要求。在这篇文章中,我们强调了现有检测器对大目标的泛化问题。我们发现,即使在几乎平衡的数据集上,现有的检测器也很难推广到大型物体。我们认为,失败的原因是深度回归损失对较大物体噪声的敏感性。
HUNTER:通过将知识从合成实例转移到真实场景,实现无人监督的以人为中心的 3D 检测
以人为中心的 3D 场景理解最近因其对机器人的关键影响而引起越来越多的关注。然而,以人为中心的现实生活场景极其多样和复杂,人类有着复杂的动作和互动。由于标记数据有限,监督方法很难推广到阻碍实际应用的一般场景。模仿人类智能,我们通过将知识从合成的人类实例转移到真实场景、设计了一种无监督的 3D 检测方法,用于以人为中心的场景。
用于半监督单目3D目标检测的解耦伪标记
我们深入研究了半监督单目 3D 对象检测(SSM3OD)的伪标记,并发现了两个主要问题:3D 和 2D 属性的预测质量之间的偏差,以及伪标记产生的深度监督的噪声趋势,导致与其他可靠监督形式的显着优化冲突。为了解决这些问题,我们为 SSM3OD 引入了一种新的解耦伪标记(DPL)方法。
使用单视图图像的弱监督单目 3D 检测
单目 3D 检测(M3D)的目的是从单视图像中精确定位 3D 目标,这通常需要对3D 检测框进行费力的标注。弱监督 M3D 最近被研究,它们通过利用现有的许多 2D 标注来避免 3D 标注过程,但它通常需要额外的训练数据,如 LiDAR 点云或多视角图像,这大大降低了其在各种应用中的适用性和可用性。我们提出了 SKD-WM3D,这是一个弱监督的单目 3D 检测框架,它利用深度信息来实现只包含单视图的M3D,而不需要任何 3D 注释或其他训练数据。
RCBEVDet:鸟瞰视图中雷达-相机融合用于 3D 目标检测
3D 目标检测是自动驾驶的关键任务之一。为了在实际应用中降低成本,人们提出了用低成本的多视角摄像机来代替扩展的 LiDAR 传感器。然而,仅仅依靠摄像机很难实现高精度、高鲁棒性的 3D 目标检测。解决这一问题的一个有效方案是将多视角摄像机与经济型毫米波雷达传感器相结合,实现更可靠的多模态 3D 目标检测。本文介绍了一种雷达与摄像机融合的鸟瞰三维目标检测方法 RCBEVDet。
A-Teacher:用于 3D 半监督目标检测的非对称网络
提出了第一个在线非对称半监督框架 A-Teacher,用于基于 LiDAR 的 3D 目标检测。我们的动机源于这样的观察:1)现有的对称师生方法具有简单的特点,但由于需要相同的模型结构和输入数据格式,阻碍了教师和学生之间的蒸馏性能。2)不同构造复杂教师模型的离线非对称方法可以生成更精确的伪标签,但对教师和学生模型的联合优化具有挑战性。因此,在本文中,我们设计了一条不同于传统范式的路径,它可以利用一名强大的教师的能力,同时保留在线教师模型更新的优势。
MonoCD:具有互补深度的单目 3D 对象检测
单目3D目标检测由于其能够以较低的成本从单幅图像中准确地获得目标3D位置而引起了广泛的关注。由于 2D 到 3D 映射的不适定性,深度估计是单目 3D目标检测的一个重要但具有挑战性的子任务。许多方法利用物体高度