突破泛化和实用壁垒!GS-Net:首个跨场景泛化即插即用3DGS算法~

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享首个具有跨场景泛化能力的即插即用3DGS模块!如果您有相关工作需要分享,请在文末联系我们!

自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心3DGS技术交流群

编辑 | 自动驾驶之心

写在前面

神经辐射场(Neural Radiance Fields,NeRF)在该领域取得了显著的进展,通过高保真渲染,不需要明确建模3D场景、纹理或光照。然而,NeRF的随机采样和体积渲染过程计算量大,严重影响了其性能,导致渲染速度较慢。为了解决实时神经渲染的需求,提出了3D高斯散射(3DGS)方法,该方法通过高斯椭球来表示场景,并利用快速光栅化技术生成高质量图像。

3DGS的一些痛点

  • 通常只处理单个场景,并通过运动结构(Structure from Motion,SfM)技术从稀疏但几何精确的点云中初始化高斯椭球参数,随后使用光度损失函数进行迭代优化和密度控制。这种方法需要针对每个场景构建单独的模型,缺乏跨场景泛化能力。

  • 对从SfM点云启发式初始化的高斯椭球高度敏感。如果稀疏点云无法捕捉场景细节,这种依赖性会阻碍进一步优化并限制其实用性。

本文介绍的GS-Net[1]是一个可泛化的即插即用的3DGS模块。该模块使用稀疏的点云作为输入,生成更加稠密的高斯椭球,允许在不同场景之间进行训练和测试,克服了传统3DGS的场景边界限制。作为一个即插即用的模块,GS-Net具有很强的实用性和兼容性,适用于所有3DGS框架。为了全面评估GS-Net在自动驾驶场景中的性能,创建了CARLA-NVS数据集,支持从12个摄像机视点进行训练和评估。

主要贡献如下:

  • 提出了GS-Net,这是一个可泛化的即插即用3DGS模块,旨在从稀疏的SfM点云生成稠密的初始高斯椭球及其参数。据作者所知,这是第一个能够直接从稀疏点云中学习高斯椭球的网络。

  • GS-Net作为即插即用的模块,具有很强的实用性和兼容性,适用于3DGS框架及其衍生模型。

  • 开发了CARLA-NVS数据集,这是首个提供12个稠密视图图像的数据集,能够全面评估场景重建和渲染质量,并支持自动驾驶感知任务。

具体方法

在原始的3D高斯散射(3DGS)方法中,高斯椭球的初始属性是通过稀疏的运动结构(SfM)点云启发式生成的。这种场景特定的初始化策略限制了方法的泛化能力,并且忽略了不同场景的独特特征。此外,它难以在纹理不足的区域捕捉细节,由于输入的稀疏性,导致模型在处理新视点或远距离场景时的鲁棒性降低。

如图1所示,GS-Net以稀疏点云为输入,增强了跨场景的泛化能力和鲁棒性。GS-Net根据不同场景的具体特征生成预测的稠密高斯椭球,能够更好地表示场景特征并减少随机性。

005d10f2128c5897b47c7de52bf6a854.png

初步概念

3D高斯散射(3DGS)方法使用创新的高斯原语来表示场景。一组高斯原语表示为:

e304e27d2bf528649476e37eeb3b4e19.png

其中, µ 表示其均值向量, 是协方差矩阵,分解为旋转矩阵  和缩放矩阵 ,即 。此外,使用球谐函数(SH)计算的不透明度  和颜色  也用于图像渲染。每个像素  的颜色通过以下公式计算:

9254a2fb7c7dc589d86905853801a102.png

高斯原语的质量直接影响场景重建的效果。然而,在3DGS的初始阶段,如果点云过于稀疏,由于监督不足,椭球的优化可能会产生伪影。我们的实验表明,当初始椭球的质量较高时,3DGS的最终渲染性能可以显著提高。此外,实现不同场景的通用初始化对于提高效率至关重要。

初始参数定义

GS-Net中使用的基本参数,包括稀疏点云和预测椭球数组,以及密集点云和密集椭球数组。前者是模型的输入和输出,而后者用于构建训练的真实数据。

  • 稀疏的SfM点云: 通过运动结构技术获得的点云,其信息包含 ,其中  表示点的三维坐标 (x, y, z),而  表示点的颜色。

  • 密集点云: 通过多视图立体技术获得的密集点云,表示为 。

  • 密集椭球数组: 上述密集点云输入到3DGS中生成密集椭球数组。与稀疏点云相比,这种输入可以生成质量更高的密集椭球数组,用于构建网络训练的真实数据。我们将密集椭球数组表示为 。

  • 预测椭球数组: 经过网络预测后,我们获得预测的椭球数组,表示为 。我们的网络将输入的密度增加了一个系数 ,在我们的数据集中,我们选择了  来实现最佳的密集化。每个预测椭球具有14维属性:。

网络模型

GS-Net应用于生成更高质量的初始高斯椭球,取代原始3DGS的过程并增强跨场景的泛化能力。如图1所示,模型的输入是通过COLMAP重建的稀疏点云,输出是预测的密集椭球数组。模型的各个组件,包括编码器、解码器以及应用于不同高斯原语的激活函数。

  • GS-Net编码模块: 编码模块包括特征提取和特征融合,用于分别捕获点的基本特征和局部特征。首先,特征提取模块将点的位置 µ 和颜色  作为输入(6维),输出16维特征。然后,特征融合模块为每个点找到3个最近的邻居,并连接它们的特征,形成一个64维的特征向量。最后,使用其他特征提取进一步融合邻居特征,最终生成128维特征,这就是我们的编码器的输出。

  • 解码器: 解码器通过三层全连接层处理编码器的输出,逐步将维度从128降至14维,匹配预测椭球数组所需的维度。

  • 参数正则化: 在获得最终输出之前,我们对预测椭球数组中的每组参数应用各种正则化方法以提高模型预测的准确性和收敛性。例如,对不透明度  使用Tanh激活函数,对协方差矩阵的缩放部分使用Sigmoid激活函数等。

数据集 CARLA-NVS

为了全面评估场景重建质量以及GS-Net在自动驾驶场景中的表现,使用CARLA模拟器构建了一个名为CARLA Autonomous Vehicle Scene Dataset with Novel Viewpoints (CARLA-NVS) 的自定义数据集,该数据集包含了新的视点。目前开源的自动驾驶数据集由于车辆上的摄像头位置固定,限制了从未见过的视点进行场景重建的评估。因此,目标是生成一个综合了动态和静态场景,具有多视点和多传感器的全面数据集。这个数据集提供了新的自由视点,更适合验证模型在新视点合成中的性能。

场景设置

该数据集涵盖了各种典型的驾驶环境,包括城市街道、乡村道路和高速公路。CARLA-NVS中的动态场景是通过CARLA的路径规划系统生成的,包含移动车辆、行人和自行车,模拟复杂的交通状况。静态场景只包含停泊的车辆和固定基础设施(如路标、树木和建筑物),用于评估静态条件下的重建质量。此外,所有数据都在两种天气条件下(晴天和阴天)收集,进一步增强了数据集的多样性。

5f85316b8139498b0821f2e310a23904.png

传感器配置

为了确保CARLA-NVS数据集的多样性和丰富性,在场景中使用了以下类型的传感器来收集多种数据:

  • RGB摄像机传感器:以1920x1080的分辨率捕捉环境的彩色图像。

  • 深度摄像机传感器:提供传感器与场景中物体之间的深度信息,分辨率为1920x1080。

  • 语义分割摄像机传感器:为场景中的每个像素生成语义标签,分辨率为1920x1080。

  • LiDAR传感器:提供360度的LiDAR传感器,捕获每秒生成3百万点的3D点云,最大探测范围为200米,具有128个扫描通道。

如图3所示,在传统传感器设置中,传感器位于特定视角,如1、3、5、7、9和11,视角之间存在间隙。为了改进数据集中的覆盖范围,我们在位置2、4、6、8、10和12增加了传感器。因此,车辆配备了12个RGB、深度和语义分割摄像机,每个摄像机的视场角为90度,均匀分布在30度的间隔处。此外,车辆顶部中心还安装了一个LiDAR传感器,以增强3D环境映射。总体而言,这种配置提供了360度的覆盖,能够从未见过的视点进行准确的评估。值得注意的是,该数据集不仅用于3DGS中的新视点评估,还用于多个自动驾驶任务,如鸟瞰图感知和占用检测。

d7021ef9709ed73bfba55fc29f241660.png

基于以上定义,生成了20个场景。具体而言,在每个场景中,所有传感器的数据同时以10 Hz的频率收集,持续10秒(大约100米的街道驾驶),每个传感器生成100帧数据。每个场景生成的数据包括1200张RGB图像、1200张深度图像、1200张语义分割图像和3000万LiDAR点云,如图2所示。收集的数据经过预处理以确保统一性和可用性。所有图像数据都以PNG格式存储,点云数据以PCD格式存储。每帧数据都带有时间戳,以确保在后续分析中的精确对齐。

实验效果

3f476ff23991a832b7f7b2eba99170ef.jpeg f4febbf2c464a6e919c8cb0caec30c29.png e138c083e6bf8f1ad1c57e6555c5281c.png 7fd6aadda8cb2aadb2ce95e38c618b3f.png

总结一下

GS-Net是一种可泛化的即插即用3DGS模块,能够在自动驾驶场景中实现跨场景的渲染,具有强大的特征提取和几何表示能力。作为一种即插即用的解决方案,GS-Net展示了与3DGS及其衍生模型的卓越实用性和兼容性。为了评估其性能,开发了CARLA-NVS数据集,支持12个摄像机视点。实验结果表明,GS-Net显著提升了3DGS在常规和新视点下的渲染质量,同时保持了相当的渲染速度。

未来工作:优化泛化能力和精度,并计划在论文被接受后发布CARLA-NVS数据集。

参考

[1] GS-Net: Generalizable Plug-and-Play 3D Gaussian Splatting Module

自动驾驶之心知识星球』欢迎加入交流!重磅,自动驾驶之心科研论文辅导来啦,申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向,欢迎联系我们!

02a727a62fcca31e198568ca1e608a0f.jpeg

① 全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、CUDA与TensorRT模型部署大模型与自动驾驶NeRF语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

b62d34cdf8997d1f4d719ae59dc715d6.png

网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内外最大最专业,近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知端到端自动驾驶世界模型仿真闭环2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

059bfa43eb2f5f40e7e72e2606ff178a.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

083aac2212f7447f973efca0ba83a5b9.jpeg

④【自动驾驶之心】全平台矩阵

6fd6a6e314e5efd53dfe84ed23f882ee.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值