点击下方卡片,关注“自动驾驶之心”公众号
戳我-> 领取自动驾驶近15个方向学习路线
今天自动驾驶之心为大家分享浙大&中科大最新的BEV 3D检测算法—LSSInst!如果您有相关工作需要分享,请在文末联系我们!
自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询
论文作者 | Weijie Ma等
编辑 | 自动驾驶之心
写在前面&笔者的个人理解
作为自动驾驶感知系统的重要组成部分,3D目标检测可应用于自动驾驶、机器人等各个领域。尽管基于激光雷达的3D目标检测算法已被证实具有卓越的3D感知性能,但基于相机传感器的3D目标检测的研究也受到越来越多的关注。其收到关注的原因不仅在于基于相机的感知算法部署成本较低,而且还在于远距离和视觉道路元素的识别带来的诸多优势。然而,与提供直接和准确的目标深度信息和几何结构信息的激光雷达传感器不同,仅基于相机传感器实现3D目标的检测是一项重大的挑战。因此,如何利用多视图图像建立有效的特征表示已成为当前一个关键的问题。
最近,利用BEV的方法取得了重大进展,其视图变换主要可分为以LSS为代表的前向类型和基于可学习BEV Query的后向类型。由于后向类型通过不可解释的Query进行纯粹隐式的聚合,因此其性能和扩展性较低,这使得基于LSS算法的前向类型成为目前仅使用相机图像的 3D 检测的主流范式。基于 LSS 假设以及场景中大多数物体靠近地面的事实,基于 LSS 的 BEV 感知算法在观察整个物体时提供了视差模糊和信息丢失最小的视角。BEV 特征受益于其整体表示和密集特征空间,使其非常适合捕获场景的结构和数据分布。然而,BEV 表示的几何压缩性质(例如分辨率和高度轴的减少)本质上限制了它提供物体的精确 3D 位置描述或充分利用详细特征进行目标匹配的能力,特别是在需要准确预测 3D 物体边界框的 3D 检测任务中。
在比较不同算法模型实验结果中不同类别的AP指标时,我们发现了一些有趣的现象,如下表所示。

值得注意的是,同一组中所选方法的整体 mAP 值之间的差异严格小于0.5%,这代表同组间不同类方法的检测效果是类似的。我们可以观察到,各个类别之间存在相同的AP趋势。具体来说,BEV 表示似乎更关注场景中具有不同运动或共同位置的常规物体(汽车、公共汽车、卡车、障碍物),而对具有不确定轨迹或分散位置的物体(行人、自行车、交通锥)相对不敏感,这进一步证明了其拟合数据分布更倾向于场景级的理解。
基于上述的实验结果的相关启发,在本文中,为了增强BEV表示和稀疏表示之间的互补协同作用,弥补当前基于 LSS 的 BEV 感知表示中缺失的细节,并利用多视图几何约束,我们提出了LSSInst算法,结合基于场景级表示的稀疏实例级表示,通过几何匹配来回顾更详细的特征。相关的实验结果表明,我们提出的LSSInst算法在nuScenes数据集上超过了现有的基于LSS的其他算法。
论文链接:https://arxiv.org/pdf/2411.06173;
算法模型网络结构&技术细节梳理
在详细介绍本文提出的网络架构之前,下图展示了我们提出的LSSInst算法模型的网络结构图。

通过上图的整体网络结构可以看出,LSSInst算法模型主要由三个子部分构成,分别是BEV Branch、Instance Adaptor、Instance Branch。接下来,我们就详细的介绍一下这三个部分的具体实现细节。
BEV Branch: Looking around for scene-level representation
我们首先将前T帧的多视角图像序列输入到2D 图像主干网络进行图像特征的提取。然后,BEV分支将多尺度的图像特征信息转换到场景级的BEV特征空间中。
具体而言,BEV分支包括时序特征共享的视角变换模块将多尺度的特征信息转换为时序的BEV特征信息,然后时序的BEV特征信息经过时间戳对齐之后,利用BEV时序编码器模块得到最终的BEV特征。在这里,使用的编码器是非常轻量化的残差网络,仅仅用于实现降维的目的。
Instance Adaptor: Scene-to-instance adaptation
为了保持 BEV 和实例表示之间连贯且牢固的语义一致性,我们提出了Instance Adaptor来消除位置描述和空间差异中的差距。由于 BEV 特征是围绕自车的场景级表示,因此在对实例级特征进行建模时存在冗余和不灵活性。
为此,所提出的适配器模块首先对通过 BEV Proposal头获得的提议框坐标进行重新投影,返回到 BEV 识别的位置以重新采样与目标相关的特征。这里代表的是BEV Proposal的数量。给定BEV点云的范围,对应的体素大小是,上采样因子是,我们建模这种2D映射坐标如下:

此外,由于 BEV 中的过度拟合偏差,聚焦区域可能会偏离实际物体位置。受可变形注意力的启发,adaptor模块通过探索更多语义感知区域,结合基于原始聚焦特征的可学习偏移量来进行错位补偿,其补偿方式如下。

如上所述,BEV 编码空间与回顾图像特征的 3D 稀疏空间之间仍然存在固有的空间差异。因此,我们首先引入一个非常浅的卷积特征转换器来重新参数化聚合特征以进行空间叙述。同时,即使基于 BEV 注意力特征进行广泛的聚合和增强,由于 BEV 对规则物体的过度拟合和相对粗糙的感知粒度,一部分不规则或分离的物体无法被检测到,因此我们引入了额外的独立于BEV Proposal的可学习query和参考框,称为潜在 3D 实例和3D框,旨在捕获潜在的 BEV 不敏感目标并学习与 BEV 无关的 3D 空间先验信息。因此,我们可以得到相应的稀疏特征如下。

Instance Branch: Looking back for instancelevel representation
给定来自图像主干网络的顺序图像特征和来自Instance Adaptor的具有相应3D框的稀疏实例特征,实例分支将根据参考框坐标在空间和时间上回顾图像特征,并迭代提取丰富但更细粒度的表示以更新预特征。该分支可以粗略地看作是一个用于3D检测的多层Transformer-decoder类模块,简单分为两部分:box-level offset和embedding,以及时空采样和融合。
Box-level Offset and Embedding:与之前类似 DETR的3D方法仅通过3D坐标偏移回归进行迭代细化不同,实例分支采用基于的框级偏移回归。具体来说,我们首先根据框的维度的元素语义将分为四类,分别是位置、尺度、速度以及方向。然后,我们引入了五个独立的线性投影进行综合编码,其中前四个将每个类别局部嵌入,最后一个将每个类别全局嵌入。最终的Box Embedding可以表述如下。

Spatiotemporal Sampling and Fusion:稀疏特征和box embedding将通过空间和时间采样进行更新,并被输入到多头自注意力模块中。在空间方面,为了访问目标区域,我们对原始特征进行采样,以中间回归从到目标的现有偏移量。为了扩大搜索广度,我们类比扩展采样点,并用权重扩大残差添加的比例。
另一方面,随着时间的推移,自动驾驶场景中存在自车运动和物体运动,需要在采样前进行补偿。考虑到这种稀疏时间立体中的短期运动,我们将物体运动近似为均匀的直线运动。因此,我们首先用当前速度补偿,然后通过全局世界坐标系转换,将其作为每个历史时间变换到到每个坐标系中。

然后,我们将多帧特征输入到稀疏时间编码器(一个三层多层感知机)中,进行时序的迭代融合。
实验结果&评价指标
为了证明我们提出的算法模型LSSInst的有效性,我们在 nuScenes 验证集和测试集上将我们的方法与基于 LSS 和两阶段的最先进的方法进行了比较。主要结果分别列于下面两个表格当中。
在验证集上,我们评估了 LSSInst 与具有相同设置且没有 CBGS 策略和未来帧使用的其他模型的性能。结果清楚地展示了 LSSInst 的优越性,因为它的表现优于当前基于 LSS 的 SOTA,SOLOFusion,在 mAP 上领先 1.6%,在 NDS 上领先 1.7%,并且优于当前的两阶段 SOTA,BEVFormerv2,在 mAP 上领先 3.4%,在 NDS 上领先 1.6%。

在测试集上,我们的LSSInst在没有任何额外增强的情况下实现了 54.6% 的 mAP 和 62.9% 的 NDS,优于所有基于 LSS 的方法。这些改进证明了我们的 LSSInst 在改进基于 LSS 的 BEV 感知方面的有效性。

为了证明我们的 LSSInst 方法的泛化能力,我们选择了基于 LSS 的相关方法作为 LSSInst 的 BEV 分支。结果如下表所示。

与独立的 BEV 检测器相比,我们的 LSSInst 在 mAP 和 NDS 方面取得了显着的改进,而成本却很小。尽管检测增强了 2-5% 的 mAP 和 NDS,但相应的成本增加了可接受的幅度。特别是在所有方法中,mATE、mASE 和 mAOE 都有显着的改进,这表明 LSSInst 可以利用细粒度的像素级特征,并更好地增强平移、缩放和方向方面的感知能力。
为了更加直观的展现出本文提出算法模型的有效性,我们展示了 LSSInst、真值和当前 SOTA 方法 SOLOFusion 的 3D 物体检测可视化比较结果,如下图所示。

通过可视化结果可以看出,LSSInst 具有更高的召回率,可以检测到更多不明显和被遮挡的物体。例如,我们的模型成功地在CAM FRONT LEFT 和 CAM FRONT RIGHT 视图中检测到远处的汽车和卡车,尤其是被树木遮挡的车辆和与背景高度相似的深色不明显汽车。此外,我们的方法在每个视图中都能产生与真值标注更一致的方向和框比例。相比之下,例如,在 CAM FRONT 和 CAM FRONT LEFT 视图中,公交车都存在严重的旋转偏移(红色弯曲箭头),并且在 CAM FRONT RIGHT 视图中,那些正在通过左侧交通信号灯的汽车之间存在框错位。上述观察充分证明了缺失细节的改善,无论是更广的感知宽度还是更精细的属性。
尽管我们已经在 nuScenes 数据集上验证了 提出的LSSInst算法模型的高性能,即使是大规模的自动驾驶数据集,当传感器大量收集数据时,获得的外部参数中也不可避免地会包含干扰。在实际的自动驾驶场景中,要求检测器能够抵抗由微小测量误差引起的干扰噪声。因此,我们在这里添加了一组随机旋转噪声,其比例与外部参数成比例增加,探索 LSSInst 在外部参数不准确的情况下的稳健性。这里的基线是具有4帧的 BEVDepth4D。实验结果如下表所示,我们证明 LSSInst 保持了良好的稳健性,表现出更高的性能和更小的整体衰减。

为了进一步研究多重Query对算法模型感知性能的影响,相关的实验结果如下表所示。我们探索了两种场景:仅使用Proposal Query或可学习的潜在Query以及合并两种Query。这里我们遵循Query最大数量默认为 900 的经典设置。

通过实验结果我们可以观察到,一方面,仅依靠潜在Query不能发挥主要作用,即使使用所有 900 个Query也会产生平庸的性能,这表明由于初始化语义分散而没有上述来自 BEV 的场景级信息基础,收敛速度很慢。另一方面,虽然单独使用来自 BEV 的Proposal Query可以取得整体良好的结果,但添加更多Query并不能取得更好的改进,这证明了其对场景的过度拟合特性以及对场景中缺失物体的检测被忽视的事实。然而,当结合两种Query时,性能进一步提高并达到了一个新的水平。可以得出结论,这两类Query发挥着各自独特的作用,它们密不可分、相辅相成的协同作用使得模型能够从全局场景级别到局部实例级别有全面的理解。
此外,我们也进行了相关实验来证明BEV与实例的语义一致性。相关实验结果如下表所示。根据与真值的结果相比,观察到我们提出额LSSInst算法模型比 LSS 基线具有更好的语义保持,这表明对场景中额外的 BEV 不敏感对象的感知能力有所提高。

结论
在本文中,我们提出了LSSInst感知算法模型,LSSInst是一种两阶段的3D目标检测器。它通过实例表示改进了 BEV 感知的几何建模结构。在nuScenes数据集上的大量实验结果表明,我们提出的算法框架在目前已有的基于LSS的BEV感知算法中具有很强的泛化能力和出色的感知性能,超越了目前最先进的3D目标检测算法。
① 2025中国国际新能源技术展会
自动驾驶之心联合主办中国国际新能源汽车技术、零部件及服务展会。展会将于2025年2月21日至24日在北京新国展二期举行,展览面积达到2万平方米,预计吸引来自世界各地的400多家参展商和2万名专业观众。作为新能源汽车领域的专业展,它将全面展示新能源汽车行业的最新成果和发展趋势,同期围绕个各关键板块举办论坛,欢迎报名参加。
② 国内首个自动驾驶学习社区
『自动驾驶之心知识星球』近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎扫描加入

③全网独家视频课程
端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习)
④【自动驾驶之心】全平台矩阵