BEV新变革！GaussianBEV：首次将Gaussian引入BEV感知领域！

最新推荐文章于 2024-08-13 12:17:34 发布

自动驾驶之心

最新推荐文章于 2024-08-13 12:17:34 发布

阅读量92

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247619754&idx=3&sn=b864d43f854d970ad30720960a298da8&chksm=cf3147f72770a80fdd36d5cae9f724bf0f4927dab959ff0da360da034d7f4d065452b4c6a3eb&scene=126&sessionid=0

版权

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『BEV感知』技术交流群

论文作者 | 自动驾驶Daily

编辑 | 自动驾驶之心

写在前面&笔者的个人理解

BEV感知又要进化了！今天看到了一篇BEV感知结合3D Gaussian实现BEV分割的任务，很赞！！！性能暂时算不上惊艳，但范式上有很大的参考性，分割任务上是可行的，OCC、检测等任务也可以考虑！

BEV感知已经广泛用于环视3D感知。它允许将不同相机的特征合并到一个空间中，提供3D场景的统一表示。其核心是view transformer，将图像视图转换为BEV。然而基于几何或cross-att的view transformer方法并不能提供足够详细的场景表示，因为它们使用的3D空间的子采样对于建模环境的精细结构来说是不足的。于是本文提出了GaussianBEV，这是一种将图像特征转换为BEV的新方法，通过使用一组在3D空间中定位和定向的3D高斯来精细地表示场景。然后通过调整基于高斯splatting的3D表示渲染，以生成BEV特征图。GaussianBEV是第一种在线使用这种3D高斯建模和3D场景渲染过程的方法，即不在特定场景上对其进行优化，而是直接集成到单阶段模型中以用于BEV场景理解。实验表明，所提出的表示方法非常有效，将高斯BEV作为nuScenes数据集上BEV语义分割任务的最新技术。

总结来说，GaussianBEV主要贡献如下：

GaussianBEV利用3D高斯表示从图像生成BEV特征图，从而实现精细的3D场景建模。然后使用栅格化模块在BEV中splatting此表示。据我们所知，这是第一次提出非场景特定的高斯splatting表示并将其集成到感知模型中。
验证明了我们的方法的有效性，使其成为BEV语义分割的最新技术。

详解GaussianBEV

整体结构如图2所示：

3D Gaussian generator

给定输入特征图F，3D高斯生成器使用多个预测头预测场景的3D高斯表示。图3说明了它如何在特征图上运行。

高斯中心。场景中高斯分布的3D位置由应用于F的深度头和3D偏移头估计。第一种方法预测3D中心沿光线的初始位置。第二种方法通过向其添加一个小的3D位移来细化这个3D位置，通过不沿光线冻结高斯分布，为高斯分布的定位提供了更大的灵活性。

更确切地说，对于坐标为（$u_{n,i}$，$v_{n,i}$）的相机n的特征图中的像素i，深度头预测视差$d_{n,i}$∈[0,1]。为了补偿从一个相机到另一个相机的焦距多样性对深度预测的影响，如[23]中提出的，在参考焦距f中，视差被预测到一个缩放因子。知道与相机n相关的真实焦距fn，然后对度量深度$z_{n,i}$进行如下解码：

然后使用第n个相机的内参Kn推导出相机参考系中的相应3D点：

产生的3D点被约束为沿着穿过所考虑像素的光线。由于这种约束，它们的定位不一定是最优的。为了克服这个问题，我们建议使用3D偏移预测头。它的目的是提供一个小的位移$△_{n,i}$，应用于高斯的3D中心，以细化其在所有三个方向上的位置。通过以下步骤可以简单地获得精确的3D点：

在这个阶段，为每个相机计算的3D高斯中心在相应的相机参考系中表示。为了在世界参考系中表达这些点，应用了外参矩阵[Rn|tn]，实现相机到世界的转换：

高斯旋转。场景中高斯分布的3D旋转是通过应用于F的旋转头来估计的。对于相机n的特征图中的给定像素，它以单位四元数q的形式输出偏心旋转。像素的偏心旋转对应于相对于穿过它的3D光线的旋转。这种建模使旋转头更容易学习，因为它不知道与它正在处理的像素对应的光线。例如，放置在场景中两个不同位置并在相机参考系中具有不同绝对（自中心）旋转的两个对象在图像中可能具有相同的外观。在这种情况下，旋转头预测的偏心旋转将是相同的。然后，使用相机的固有参数来检索自中心旋转信息。

为此，计算表示穿过相机n的像素i的光线与轴$[0,0,1]^T$之间的旋转的四元数。然后通过以下步骤恢复表示相机参考系中的自中心旋转的四元数：

最后，对于高斯中心，使用$q^w_{n,i}$计算表示高斯在世界参考系中的旋转的四元数，该四元数对相机n的相机到世界的旋转进行建模：

高斯尺寸、不透明度和特征。最后三个高斯参数不依赖于光学特性和相机定位，而是编码语义特性。因此，简单地使用三个头来预测BEV光栅化器模块渲染高斯集G所需的集S、O和E。

BEV rasterizer

BEV光栅化器模块用于从3D高斯生成器预测的高斯集G中获得BEV特征图B。为此，高斯高斯splatting中提出的差分光栅化过程已被调整为执行这种渲染。第一种调整已经在其他离线语义重建工作中提出，包括渲染C维特征而不是颜色。在我们的例子中，这会产生一个包含感知任务所必需的语义特征的渲染。第二个调整涉及所使用的投影类型。我们对渲染算法进行了参数化，以生成正交渲染而不是透视渲染，更适合场景的BEV表示。

GaussianBEV training

高斯正则化损失。尽管高斯BEV可以通过上述损失进行有效训练，但直接作用于高斯表示的正则化函数的添加提高了其代表性。特别是，在训练过程中增加了两个正则化损失。

首先，深度损失旨在使用激光雷达在图像中的投影提供的深度信息来规范高斯人的位置。这种损失增加了对深度水头预测的约束，以获得初始3D位置，然后通过3D偏移对其进行细化。深度损失Ldepth定义如下：

其次，早期监督损失旨在优化BEV骨干之前的高斯表示。其想法是限制BEV特征，以直接为语义分割任务提供所有必要的信息。在实践中，分割头被添加并直接连接到BEV光栅化器模块的输出。早期监督损失的定义与Lsem类似。因此，总损失函数由下式定义：

实验结果

结论

本文介绍了GaussianBEV，这是一种新的图像到BEV变换方法，是BEV语义分割的最新进展。基于在线3D高斯生成器，它将图像特征图的每个像素转换为语义化的3D高斯。然后，高斯人被泼洒以获得BEV特征图。我们已经证明，高斯表示能够适应场景中存在的不同几何结构，从而实现精细的3D建模。我们希望这项初步工作将为使用在线高斯splatting表示的3D感知的进一步研究打开大门。

参考

[1] GaussianBeV : 3D Gaussian Representation meets Perception Models for BeV Segmentation

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！重磅，自动驾驶之心科研论文辅导来啦，申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向，欢迎联系我们！

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向，目前近60+技术交流群，欢迎加入！扫码添加汽车人助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）

④【自动驾驶之心】全平台矩阵

自动驾驶之心

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
BEV新变革！GaussianBEV：首次将Gaussian引入BEV感知领域！

点击下方卡片，关注“自动驾驶之心”公众号戳我->领取自动驾驶近15个方向学习路线>>点击进入→自动驾驶之心『BEV感知』技术交流群论文作者|自动驾驶Daily编辑 | 自动驾驶之心写在前面&笔者的个人理解BEV感知又要进化了！今天看到了一篇BEV感知结合3D Gaussian实现BEV分割的任务，很赞！！！性能暂时算不上惊艳，但范式上有很大的参考性，分割任务上是可行...
复制链接

扫一扫