小米最新！Uni-Gaussians：高效且统一的Camera与Lidar重建算法

最新推荐文章于 2025-04-29 17:03:13 发布

自动驾驶之心

最新推荐文章于 2025-04-29 17:03:13 发布

阅读量260

点赞数

文章标签：算法

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247658347&idx=3&sn=84dec67d8e6d4d036f68c22eb6f5ed27&chksm=cf2f75451220e2a63a63f870b2f14bb76385b1b2bb61cf1f5c6a1af5dc3dac8f017e6d17a333&scene=126&sessionid=0

版权

作者 | ADFeed

点击下方卡片，关注“3D视觉之心”公众号

第一时间获取3D视觉干货

>>点击进入→3D视觉之心技术交流群

Uni-Gaussians: Unifying Camera and Lidar Simulation with Gaussians for Dynamic Driving Scenarios

论文：https://arxiv.org/abs/2503.08317

Uni-Gaussians 是一种新型混合方法，由小米汽车联合华中科大的研究团队开发，旨在通过高斯原语统一模拟动态驾驶场景中的相机和激光雷达数据。该方法结合了光栅化和高斯光线追踪两种渲染技术，分别用于相机图像和激光雷达点云的渲染，从而解决了现有方法在渲染速度和准确性方面的局限性。

其核心特点在于其创新性的渲染策略：光栅化技术被用于相机图像渲染，以实现快速高效的渲染速度；而高斯光线追踪则被用于激光雷达数据的渲染，以确保与激光雷达传感器的主动感知机制相匹配，从而提高点云模拟的准确性。

此外，该方法采用2D高斯原语来表示场景中的几何信息，并引入球谐系数来模拟激光雷达数据的视图依赖特性，进一步提升了模拟结果的逼真度和泛化能力。

实验结果表明，Uni-Gaussians 在多个公共数据集上的表现优于现有的最先进方法。与基于NeRF的方法相比，该方法显著提高了渲染效率，同时避免了光栅化技术在激光雷达模拟中的不准确性问题。此外，该方法在相机图像渲染中展现出与现有技术相当的视觉效果，并在新视图合成任务中表现出更好的泛化能力。

技术解读

本研究提出了一种基于高斯原语的混合渲染框架Uni-Gaussians，旨在高效且统一地模拟动态驾驶场景中的相机和激光雷达数据。总体思路是通过结合光栅化和高斯光线追踪两种渲染技术，分别针对相机图像和激光雷达点云的特性进行优化渲染，同时利用高斯场景图（Gaussian scene graph）对动态场景进行建模，从而实现对复杂驾驶场景的高效模拟。

该技术的具体处理过程如下：

首先通过高斯场景图将动态驾驶场景分解为静态背景和动态物体（如车辆和行人），并利用2D高斯原语对场景进行建模。
对于相机图像渲染，采用光栅化技术，利用体积alpha混合实现快速渲染；而对于激光雷达点云渲染，则采用高斯光线追踪技术，通过计算光线与高斯原语的交点来模拟激光雷达的主动感知机制。
此外，该技术引入球谐系数来模拟激光雷达数据的视图依赖特性，进一步提升模拟结果的逼真度。

其技术特点主要包括：高效的光栅化渲染确保了相机图像的实时性；高斯光线追踪提高了激光雷达点云的渲染精度；2D高斯原语的使用则在几何表示和计算效率之间取得了平衡。该技术的价值在于为自动驾驶场景下的多传感器数据模拟提供了一种高效且统一的解决方案，显著提升了渲染效率和模拟精度。其在实验中表现出的优越性能，尤其是在激光雷达点云模拟和相机图像渲染的结合上，为自动驾驶车辆的虚拟测试和验证提供了更逼真的环境。

论文速读

本文提出了一种名为 Uni-Gaussians 的新型混合方法，旨在通过高斯原语（Gaussian primitives）统一模拟动态驾驶场景中的相机和激光雷达（LiDAR）数据。该方法结合了光栅化（rasterization）和高斯光线追踪（Gaussian ray-tracing）两种渲染技术，分别用于相机图像和激光雷达点云的渲染，以解决现有方法在渲染速度和准确性方面的局限性。实验结果表明，该方法在渲染质量和计算效率方面均优于现有技术，为自动驾驶场景下的多传感器数据模拟提供了一种高效且逼真的解决方案。

背景知识

自动驾驶车辆的安全性依赖于对多传感器数据（如相机和激光雷达）的全面模拟。现有的神经渲染技术主要分为两类：基于神经辐射场（NeRF）的方法和基于高斯绘制（Gaussian Splatting, GS）的方法。NeRF方法虽然能够高保真地模拟相机和激光雷达数据，但其基于密集采样的光线追踪渲染速度较慢，难以应用于大规模评估。而GS方法通过光栅化实现快速渲染，但在模拟非线性光学传感器（如激光雷达）时存在准确性问题，限制了其在非针孔相机传感器模拟中的应用。

研究方法

1. 统一的高斯场景图表示

文章提出了一种基于高斯场景图（Gaussian scene graph）的表示方法，将动态驾驶场景分解为静态背景和动态物体（如车辆和行人）。通过引入2D高斯原语来表示场景中的几何信息，并为每个高斯原语定义了中心点、切向量、缩放因子、不透明度、球谐系数（用于颜色、强度和激光反射率）等可学习参数。此外，文章还引入了球谐系数来模拟激光雷达数据的视图依赖特性，如强度和激光反射率。

2. 相机图像渲染

对于相机图像的渲染，文章选择使用光栅化技术。通过将2D高斯原语投影到图像平面上，并利用体积alpha混合技术对颜色进行积分，从而实现高效的图像渲染。这种方法在保持渲染质量的同时，显著提高了渲染速度。

3. 激光雷达点云渲染

由于光栅化技术不适用于激光雷达数据的渲染，文章采用了高斯光线追踪技术。通过将2D高斯原语转换为几何原语（如三角形），并利用边界体积层次结构（BVH）加速光线与高斯原语的交点计算，从而实现激光雷达点云的高效渲染。该方法能够更好地模拟激光雷达的主动感知机制，避免了光栅化带来的点云位置紊乱问题。

4. 优化策略

文章提出了一个端到端可微分的优化框架，通过联合优化所有高斯原语的参数（如中心点、缩放因子、不透明度等），以实现对整个动态驾驶场景的模拟。优化过程中使用了多种损失函数，包括L1损失、结构相似性指数（SSIM）、深度误差、强度误差、激光反射率误差和法线一致性约束，以确保渲染结果的逼真度和准确性。

实验

1. 数据集与评估指标

实验基于Waymo Open Dataset进行，选取了8个复杂的动态驾驶场景，包含车辆、行人和骑自行车者。对于激光雷达数据的评估，使用了Chamfer距离、F-score、均方根误差（RMSE）和中值绝对误差（MedAE）等指标；对于相机图像的评估，使用了峰值信噪比（PSNR）和结构相似性指数（SSIM）。

2. 与现有技术的对比

激光雷达数据渲染：与DyNFL和LiDAR4D等现有技术相比，Uni-Gaussians在Chamfer距离、F-score、RMSE和MedAE等指标上均表现出显著优势，分别比DyNFL和LiDAR4D降低了40.9%和46.7%的Chamfer距离误差。
相机图像渲染：与PVG、StreetGS和OmniRe等现有技术相比，Uni-Gaussians在PSNR和SSIM指标上均表现出色，尤其是在新视图合成任务中，展示了更好的泛化能力。

3. 消融实验

渲染方法对比：消融实验验证了高斯光线追踪在激光雷达数据渲染中的优越性，以及光栅化在相机图像渲染中的高效性。实验结果表明，光栅化渲染单张图像的速度比高斯光线追踪快83倍，而高斯光线追踪在激光雷达点云渲染中能够显著提高准确性。

关键结论

文章提出的Uni-Gaussians方法通过结合光栅化和高斯光线追踪技术，实现了对动态驾驶场景中相机和激光雷达数据的高效、统一模拟。该方法在渲染质量和计算效率方面均优于现有技术，为自动驾驶场景下的多传感器数据模拟提供了一种新的解决方案。

【3D视觉之心】技术交流群

3D视觉之心是面向3D视觉感知方向相关的交流社区，由业内顶尖的3D视觉团队创办！聚焦三维重建、Nerf、点云处理、视觉SLAM、激光SLAM、多传感器标定、多传感器融合、深度估计、摄影几何、求职交流等方向。扫码添加小助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）

扫码添加小助理进群

【3D视觉之心】知识星球

3D视觉之心知识星球主打3D感知全技术栈学习，星球内部形成了视觉/激光/多传感器融合SLAM、传感器标定、点云处理与重建、视觉三维重建、NeRF与Gaussian Splatting、结构光、工业视觉、高精地图等近15个全栈学习路线，每天分享干货、代码与论文，星球内嘉宾日常答疑解惑，交流工作与职场问题。