集智书童 | 清华大学/NVIDIA/斯坦福等在没有3D数据的情况下训练一个开放词汇的单目3D物体检测模型 !

本文来源公众号“集智书童”,仅用于学术分享,侵权删,干货满满。

原文链接:清华大学/NVIDIA/斯坦福等在没有3D数据的情况下训练一个开放词汇的单目3D物体检测模型 !

最近,由于其在自动驾驶和机器人领域的广泛应用,无词汇3D目标检测受到了广泛关注,该方法旨在有效识别以前未见过的领域中的新类。

然而,现有的基于点云的开放式无词汇3D检测模型受到高部署成本的限制。在这项工作中,作者提出了一种新的开放式无词汇单目3D目标检测框架,称为OVM3D-Det,该框架仅使用RGB图像训练检测器,使其既具有成本效益又具有可扩展性,可以访问公开的数据。与传统方法不同,OVM3D-Det不需要高精度的激光雷达或3D传感器数据作为输入或生成3D边界框。

相反,它使用开放式无词汇2D模型和伪激光雷达来自动 Token RGB图像中的3D目标,促进开放式无词汇单目3D检测器的学习。然而,直接使用伪激光雷达生成的标签训练3D模型是不够的,因为噪声点云估计的边界框不准确,被严重遮挡的目标。

为了解决这些问题,作者引入了两种创新设计:自适应伪激光雷达侵蚀和基于大型语言模型先验知识的边界框精炼。这些技术有效地校准了3D标签,并使3D检测器仅使用RGB进行训练。

大量实验表明,OVM3D-Det在室内和室外场景下的性能优于 Baseline 。

1 Introduction

近年来,由于其在自动驾驶等领域的广泛应用,3D目标检测吸引了大量关注,增强现实,具身AI,等等。虽然许多3D检测器在3D感知发展过程中表现出色,并持续刷新流行的基准测试[14; 10; 52]的最先进记录,但它们通常难以将泛化到训练数据之外的其他目标类别,这严重限制了它们在多样化实际场景中的应用。为了解决这一挑战,许多以前的工作已经取得了进展,以在更广泛的场景中检测开放词汇目标,即在训练过程中关注识别和定位不属于已知类别的目标。

然而,这些基于开放词汇的3D检测器严重依赖于从高精度LiDARs或3D传感器捕获的点云,这需要昂贵的部署。相反,在另一项研究中,单目3D目标检测器直接输入单视图像,对目标进行定位和识别3D边界框。在没有昂贵的点云获取的情况下,单目3D检测器拓宽了部署目标检测模型的经济平台。尽管单目方法在推理过程中解放了3D目标检测的昂贵点云,但它们的训练过程仍然需要在密集 Token 过程中使用图像和LiDAR或3D传感器数据对,这阻止了进一步的数据扩展。鉴于在线RGB图像的丰富性,有人可能问:单目3D检测器的训练是否可以从大量可用的RGB图像中受益,以提高开放词汇感知能力?

在这篇论文中,作者通过提出一个名为 OVM3D-Det 的新颖开放词汇单目3D目标检测框架来回答这个问题。该框架仅需要RGB图像进行训练,可以利用各种数据,并在部署时发挥其开放词汇潜力,如图1所示。为了从大量图像中挖掘有价值的信息并探索开放集物体,作者利用开放词汇2D模型找到属于新类别的物体。为了获取其对应的3D边界框,作者采用伪LiDAR[57]辅助深度估计器确定物体在3D空间中的位置。

然而,这种框架的简单实现导致了不准确的3D边界框,从而降低了经过训练的开源3D检测器的性能(参见表5(a),7.3%与18.5%AP)。作者归因于高度嘈杂的伪激光雷达。尽管最近深度估计模型[16, 67, 40, 56, 65]在各种结构化环境和具有不同内参的相机之间展示了惊人的零样本泛化能力,但伪激光雷达在自动标注过程中可能会累积错误:

(1)生成的点云噪声较大,难以将目标与背景中的伪迹区分开;

(2)目标物体可能被遮挡,其实际大小难以估计,因为点云是从单一视角生成的。

面对这些挑战,作者在OVM3D-Det框架中设计了两个创新组件。为了减轻第一个问题,作者提出了一种自适应侵蚀方法,用于在伪LiDAR中过滤噪声并保留目标目标。这种方法根据目标大小自适应地移除靠近目标的噪声点,从而提高了3D边界框的精度。对于

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值