CVPR‘25最新!GaussianLSS:迈向真实世界的BEV感知~

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享国立阳明交通大学团队最新的工作!CVPR新作GaussianLSS:将Gaussian Splatting引入 LSS,实现“真感知”!如果您有相关工作需要分享,请在文末联系我们!

自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『BEV感知』技术交流群

论文作者 | Shu-Wei Lu等

编辑 | 自动驾驶之心

写在前面 && 笔者理解

鸟瞰图(BEV)感知作为三维感知任务(如三维目标检测 和 BEV 分割)的基础,对于理解驾驶环境至关重要。准确的空间理解在下游的运动预测和规划中也发挥着关键作用,而BEV 通过为传感器融合提供一个稳健的中间表示,促进了有效的多模态融合。

  • 论文链接:https://arxiv.org/pdf/2504.01957

  • 项目链接:https://hcis-lab.github.io/GaussianLSS/

现有的 BEV 感知方法大致可以分为两类范式:

  1. 2D 反投影方法,通过估计深度并将特征反投影到 3D 空间;

  2. 3D 投影方法,将预定义的 3D 坐标体积投影到相机视图上并聚合图像特征。尽管这些范式取得了显著进展,但它们通常涉及准确度、计算成本和可扩展性之间的权衡,限制了它们在现实场景中的适用性。

3D 投影方法在准确度方面达到了SOTA的水平,然而,它们对 3D 网格的依赖导致了较高的计算成本,使其不太适合实时应用。为了克服这些限制,作者引入了 GaussianLSS,这是一种基于 2D 反投影的方法,通过引入新颖的深度不确定性建模技术,在准确性和效率之间取得了平衡,以满足自动驾驶应用的实时性要求。

图1展示了 GaussianLSS 推理速度和性能的对比,可以看到作者提出的方法在推理速度和效果上有着非常不错的权衡:

本文的主要贡献如下:

  1. 引入了 GaussianLSS,这是一种针对 BEV 感知量身定制的新型深度不确定性建模方法,它捕获并利用深度模糊性来改善空间表示。

  2. 提出了一种计算效率高的方法,将深度不确定性转换为 3D 概率分布,并将其与 Gaussian Splatting 无缝集成,以实现快速准确的 BEV 特征聚合。

  3. GaussianLSS 在 2D 非投影方法中实现了最先进的结果,并且与 3D 投影方法具有竞争力。此外,它还显着减少了内存使用量和推理时间,使其非常适合现实世界的自动驾驶应用。

相关工作

3D 投影的目标检测/分割

3D 投影方法将预定义的 3D 体素点映射到图像平面上以采样特征,消除了对显式深度估计的需求。这种方法通过将特征放置在合理的 3D 位置,绕过了直接深度预测的复杂性。值得关注的工作有,BEVFormer 和 SimpleBEV等,采用网格采样来高效地在 BEV 平面上聚合多视图特征。为了应对网格分辨率的挑战,PointBEV 引入了一种从粗到细的训练策略,从密集网格过渡到稀疏网格,这在保留准确度的同时减少了内存消耗。尽管取得了这些进展,与 2D 反投影方法相比,3D 投影方法仍然计算密集,限制了它们在现实应用中的可扩展性。

隐式 2D 反投影的目标检测/分割

隐式 2D 反投影方法利用基于 Transformer 的架构和 MLP,从 2D 图像到 3D 空间进行学习映射,而无需显式预测深度。这些方法侧重于通过在交叉注意力框架中整合 BEV 网格查询和相机感知位置嵌入,隐式地学习空间关系和深度线索。然而,由于投影是隐式的,这些方法在处理深度模糊性时面临挑战。另外,随着 BEV 网格和图像分辨率的增加,它们的计算复杂度显著增加,使其在高分辨率应用中效率较低且可扩展性较差。这些限制限制了它们在需要精确空间表示的详细场景中的实用性。

显式 2D 反投影的目标检测/分割

Lift-Splat-Shoot (LSS) 引入了一个高效的流程,将 2D 特征提升到 3D,这一设计已成为 3D 感知任务的基础。这种方法严重依赖于准确的深度估计,这使得它对深度预测误差敏感,这些误差可能会传播到 BEV 表示中。为了缓解这一问题,后续工作增加了深度监督作为辅助损失,以提高深度准确性。尽管这些方法使用概率深度分布来软性提升特征,但它们通常缺乏对深度不确定性的显式表示。这一限制阻碍了它们在复杂场景中有效处理深度模糊性的能力。GaussianLSS 通过将深度不确定性显式建模为概率分布的方差来解决这一问题。这种不确定性感知的深度表示减少了对精确深度估计的依赖,允许模型捕捉围绕深度均值的可变空间范围,见图2。

不确定性建模

不确定性建模是一种广泛采用的方法,用于捕捉计算机视觉任务中的模糊性,应用领域包括语义分割、单目深度估计和新视图合成。估计不确定性的常见方法包括:

  • 预测分布的方差:基于预测概率分布的方差来衡量不确定性,直接表明对输出的置信度。

  • 基于 MLP 的不确定性估计:使用多层感知器(MLP)输出单个不确定性分数或预测由均值和方差描述的分布,其中方差作为不确定性度量。

  • 贝叶斯网络:引入概率先验分布,以原理性框架对不确定性进行建模。

这些方法各自提供了独特的不确定性建模方式,支持在各种场景中进行更稳健的预测。在作者的工作中,作者通过关注深度分布的方差来采用不确定性建模,利用它增强 BEV 分割性能,特别是在存在深度模糊性的情况下。

GaussianLSS 模型

作者的目标是将深度不确定性建模整合到 BEV 表示流程中,以应对现实场景中的深度模糊性挑战。GaussianLSS 的概述如图 3 所示。

GaussianLSS 首先预测每个像素的深度分布,提供相应深度不确定性的估计。利用相机的投影矩阵,作者定义了一个相机视锥空间,将这种深度不确定性转换为由均值和协方差矩阵表示的 3D 分布。为了实现高效的 BEV 特征绘制,作者在 3D 高斯表示中引入了一个不透明度参数,从而可以使用高斯绘制光栅化。然而,作者观察到由于相邻像素之间深度均值不一致,BEV 特征可能会出现失真。为了解决这一问题,作者采用了多尺度 BEV 渲染方法。

深度不确定度建模

作者首先回顾开创性工作 Lift-Splat-Shoot。它首先将深度范围 [d_min, d_max] 离散化为 B 个箱子。这创建了一个离散深度集合 D:

然后作者将 D 与像素坐标关联起来,创建一个相机视锥空间  。对于图像中的每个像素 p,网络预测一个上下文向量   和一个深度分布  ,其中   表示 B 维概率单纯形。对于给定的深度 d,与视锥空间中的点   相关联的特征   定义为上下文向量按相应深度分布系数   缩放的结果:

然而,这种软分配机制存在几个缺点:

  • 稀疏 BEV 投影:离散化深度的不连续性导致稀疏的 BEV 投影,从而在 BEV 表示中产生不完整的空间覆盖。

  • 不稳定的深度分布:深度分布是通过 softmax 操作获得的,但 softmax 可能会对相邻的深度箱产生截然不同的概率。这导致 BEV 特征不一致,因为相似的深度可能由于深度值的微小变化而获得不成比例的关注。

因此,作者提出了一种不确定性感知的深度建模方法,通过引入连续的深度表示并显式建模深度不确定性,从而缓解这些问题,允许更平滑、更可靠的 BEV 特征聚合。作者通过建模深度分布的方差来捕捉深度不确定性。设 P 为每个像素的深度分布,对于每个像素 p,作者计算深度均值   和方差  ,其中   和   分别表示第 i 个箱子的深度值及其概率。使用误差容差系数 k,作者定义了一个软深度估计范围  。这个范围容纳了深度不确定性,允许通过捕捉均值周围的分布范围来进行更灵活、更可靠的深度投影(见图 2)。

3D 不确定度转换

作者在深度空间中生成了一个软深度估计  ,然后将其转换为 3D 表示。给定视锥空间   中的一个点  ,其中 u 和 v 表示像素坐标,d 是深度,作者使用相机内参 I 和外参 E 将 p 反投影到 3D 坐标中:

其中   是在自车坐标系中的反投影 3D 点。然后作者通过以下公式计算点 p 的 3D 均值   和协方差 

其中   是与每个深度箱 i 相关联的概率,  表示像素 p 对应深度   的 3D 点。因此,软深度估计   被转换为一个 3D 高斯分布,其中均值   表示分布在 3D 空间中的中心,  描述其分布范围。如上一节所述,作者应用误差容差系数 k 来定义围绕   的 3D 不确定性范围。这个软 3D 范围由一个以   为中心的椭球体表示,定义为:

其中 x 是 3D 空间中的任意一点。这个椭球体基于深度估计的范围捕捉了 p 在 3D 位置上的不确定性。作者将这种转换记为 T:

其中   表示转换后的 3D 不确定性。

BEV Features Splatting

在本节中,作者描述如何将深度不确定性与预测的特征整合后高效地绘制到 BEV 表示中。

Gaussian Splatting

Gaussian Splatting 使用由 3D 均值  、3D 协方差矩阵   和不透明度   定义的 3D 高斯分布   来建模 3D 场景:

然后,这些高斯分布被投影并使用 alpha 混合渲染到 2D 平面上:

其中   是每个点的颜色,C 是混合后的计算颜色。

BEV feature rendering

对于来自 n 个多视图相机的每张输入图像,作者提取多相机特征,并使用一个简单的 CNN 层获得绘制特征  、深度分布   和不透明度  。然后,如上一小节所述,作者生成每个像素的 3D 表示  ,其中每个   包括 3D 空间坐标和协方差矩阵。通过将这些 3D 表示与特征图 F 和不透明度   整合,作者获得了一组高斯分布  。接下来,n 组高斯分布   被合并并投影到 BEV 平面上  。将它们投影到 BEV 平面的实现方法是对原始投影方法进行了略微修改,详细内容在论文的补充材料中介绍。最后,作者将   替换为  ,将特征 F 绘制到 BEV 平面上,得到如下 BEV 特征:

其中   表示在 BEV 平面上每个位置 x 处的渲染 BEV 特征。为了应对相邻像素之间深度估计不一致的问题,作者提出了一种多尺度 BEV 特征渲染方法。该方法在不同分辨率(例如 50×50 或 200×200)的 BEV 平面上投影 G,有效地捕获分层空间表示。得到的多尺度特征随后被上采样并融合,以匹配目标 BEV 分辨率。最后,融合后的特征被送入分割头以产生最终预测。

实验及结果

作者在 nuScenes 数据集上评估了 GaussianLSS。

与现存方案的对比

作者将 GaussianLSS 与基于反投影和投影的方法进行了比较。如表 1 所示,GaussianLSS 在所有基于反投影的方法中表现最佳,并且与基于投影的方法相比具有相当的性能。作者观察到,即使使用多尺度渲染,GaussianLSS 在预测对象形状方面仍然比基于投影的方法差,但能够捕捉到更远距离的对象。

此外,表 2 比较了行人类别分割,而表 3 显示了推理速度和内存消耗。GaussianLSS 实现了 80.2 FPS,比 PointBEV 快 2.5 倍,展示了其效率。除了列出的任务外,作者还在其他应用中评估了 GaussianLSS,包括地图分割和 3D 目标检测。这些结果进一步验证了 GaussianLSS 在不同任务中的多功能性,显示了不确定性表示的有效性。

误差容差系的消融实验

误差容差系数 k 是作者不确定性建模方法中的一个关键参数。它通过控制围绕每个 3D 点的椭球体的大小,定义了 3D 不确定性表示的空间范围。较小的 k 限制了绘制到高置信度区域,但可能会忽略物体的有效范围;而较大的 k 虽然纳入了更多的不确定区域,但以牺牲精度为代价。这种平衡对于有效的 BEV 特征表示至关重要。

分析结果如图 4 所示。另一方面,作者也尝试直接预测一个固定的范围,而不是建模不确定性。通过比较这两种方法,作者旨在突出将不确定性纳入 BEV 特征提取过程的优势,因为直接预测范围会导致性能降低 1.3%。

深度不确定度分析

作者评估了 GaussianLSS 在不同距离上从自车的性能,重点关注其准确表示远距离物体的能力。为此,作者通过排除距离自车一定近邻阈值内的预测来计算 IoU。图 6 比较了 GaussianLSS 与基于投影的最先进方法 PointBEV。两种模型都表现出随着距离增加而准确度下降的相似趋势,这是由于深度模糊性增加所致。

然而,GaussianLSS 在处理远距离物体方面表现出优势。通过显式建模和利用深度不确定性,GaussianLSS 在超过 30 米的距离上提供了更准确的对象表示。当最大深度设置为 61 米时,性能降至零。

特征渲染中的不透明度

特征渲染中的不透明度可以被视为一种加权求和机制,引导模型关注语义相关区域。高不透明度区域代表置信度高、贡献大的特征,而低不透明度区域则被弱化或可以过滤掉以提高效率。经验表明,在训练后,80% 的高斯分布的不透明度低于 0.01,突出了模型在识别和将关键区域投影到 BEV 空间方面的效率,如图 7 所示。

定性结果分析

作者在图 5 中展示了定性结果。黄色区域表示在特征提升过程中由于低不透明度值而被屏蔽的区域,确保模型专注于语义重要的特征。GaussianLSS 即使在存在遮挡和杂乱的复杂城市场景中,也能捕捉到关键区域,如车辆。这突出了 GaussianLSS 在学习有意义的特征的同时过滤不相关区域的有效性,从而实现准确且高效的 BEV 表示。

图 8 展示了模型在长距离感知方面的鲁棒性,涵盖了 8 种不同场景。作者可视化了在 BEV 平面上绘制后的不确定性感知特征。尽管长距离感知存在固有挑战,包括深度模糊性增加,GaussianLSS 利用不确定性感知特征专注于感兴趣区域,同时保持 BEV 投影的准确性。

总结

作者提出了 GaussianLSS,这是一种新颖的 BEV 感知方法,它将深度不确定性建模与高效的多尺度 BEV 特征渲染相结合。通过将每个像素的深度不确定性转换为 3D 高斯表示,GaussianLSS 有效地解决了深度模糊性的固有挑战,同时实现了将特征稳健且准确地投影到 BEV 空间中。作者在基于反投影的方法中实现了最先进的性能,并且在显著降低内存使用量和推理时间方面表现出色,使其非常适合用于现实世界的自动驾驶应用。

自动驾驶之心

论文辅导来啦

知识星球交流社区

近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程


端到端自动驾驶大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网:www.zdjszx.com

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值