训练45秒,渲染300+FPS!MVSGaussian来了

作者 | Tianqi Liu  编辑 | 3D视觉之心

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心3D GS技术交流群

本文只做学术分享,如有侵权,联系删文

MVS与Gaussian如何碰撞出“火花”

多视图立体(MVS) 是在从多个视点重建稠密的3D表示。传统的MVS方法依赖于手工设计的特征和相似度度量,其性能受到限制。可泛化NeRF通过使用多层感知机(MLP)隐式地表示场景为连续的颜色和密度场,虽然使用体积渲染技术实现了令人印象深刻的渲染效果,但是每个场景都需要耗时的优化。3D高斯喷射(3D-GS) 利用各向异性的3D高斯显式地表示场景,并通过可微光栅化实现了实时高质量的渲染。然而高斯喷射的本质仍然在于过拟合场景。

为了解决这个问题,一些初步尝试已经开始将高斯喷射泛化到未见过的场景。可泛化高斯喷射方法直接以前馈方式回归高斯参数,而不是每个场景的优化。通用范式包括对场景中的3D点进行特征编码,然后解码这些特征以获得高斯参数。

由于现有方法的低效性及其对物体重建的限制,MVSGaussian用于未见过的通用场景中的新视点合成,面临以下关键挑战:

  • 如何设计一种3D-GS通用的参数化显式表示

  • 相比可泛化NeRF的视图合成能力,3D-GS的泛化能力尚未被探索

  • 如何让可泛化的3D-GS模型快速优化

4d5f9c238482164e601877304d87e8f0.png

MVSGaussian在单个RTX 3090 GPU上,与传统3D-GS相比,在实现更好的新视点合成的同时,具有类似的渲染速度(300+ FPS)和13.3倍更低的训练计算成本(45秒)。主要贡献如下:

  • 设计了一种基于多视图立体和像素对齐高斯表示的可泛化高斯喷射方法。

  • 进一步提出了一种高效的混合高斯渲染方法,以提升泛化学习。

  • 引入了一种一致的聚合策略,为快速每场景优化提供高质量的初始化。

(大拇指往上滑,点击最上方的卡片关注我,整个操作只会花你 1.328 秒,然后带走未来、所有、免费的干货,万一有内容对您有帮助呢~)

MVSGaussian

给定一组源视图 ,NVS(新视点合成)旨在从新的摄像机姿态合成目标视图。MVSGaussian整体框架如图2所示:

  1. 利用特征金字塔网络(FPN)从源视图中提取多尺度特征。这些特征然后通过可微单应性变换被扭曲到目标摄像机的视锥体上,以构建一个成本体积,随后通过3D CNN进行正则化以生成深度图。

  2. 基于获得的深度图,我们通过聚合多视图和空间信息为每个像素对齐的3D点编码特征。

  3. 编码的特征可以被解码用于渲染。利用一种高效的混合渲染方法,结合了一个简单的深度感知体积渲染模块,其中每条射线只采样一个点。我们使用高斯喷射和体积渲染渲染两个视图,然后将这两个渲染视图平均得到最终的渲染结果。

5c96076bdd74794c8255fdf08f988324.png

基于MVS的GS表示

从MVS中估计深度

深度图是整个流程的关键组件,因为它连接了2D图像和3D场景表示。按照基于学习的MVS方法:

  • 在目标视图中建立多个前平行平面。

  • 使用可微单应性变换将源视图的特征扭曲到这些扫描平面上。通过计算它们的方差构建一个成本体积,这个体积编码了多视图特征的一致性。

  • 成本体积被输入到3D CNN进行正则化,以获得概率体积。利用这个深度概率分布,对每个深度假设进行加权,以获得最终的深度。

13bbabcf03772c01ceba07c9b82eed52.png
像素对齐的高斯表示

利用估计的深度,每个像素可以被反投影到一个3D点,这就是3D高斯的位置。接下来为这些3D点编码特征,以建立一个像素对齐的高斯表示。首先使用公式将源视图的特征扭曲到目标摄像机的视锥体中,然后利用一个聚合网络将这些多视图特征聚合成特征 ρ。考虑到喷射的特性,每个高斯会对图像中特定区域的多个像素的颜色值做出贡献。然而,聚合特征  只为单个像素编码了多视图信息,缺乏空间意识。因此,利用一个2D UNet进行空间增强,得到增强的特征 。有了编码的特征,可以将其解码为渲染所需的高斯参数。每个高斯由属性 µα 表征。位置 µ可以通过根据估计的深度反投影像素得到:

c9eae59b7d4b48d2f0aee28eec26ff08.png

对于缩放 、旋转  和不透明度 α,它们可以从编码特征中解码出来:

90a5f27b789de623ef395d855262b2d1.png

对于最后一个属性颜色 ,3D高斯喷射使用球谐系数来定义。由于从特征中学习球谐系数的泛化性不强,所以直接从特征中回归颜色:

9af0235c4be5530e2b7dab24d4873486.png
高效的混合高斯渲染

使用上述高斯参数可以使用点渲染技术呈现新视角,但是获得的视角缺乏细节,且泛化性能有限。作者的看法在于,点渲染方法引入了复杂的3D高斯和像素之间的多对多关系,涉及色彩贡献,这给泛化带来了挑战。因此使用简单的3D高斯和像素之间的一对一对应关系来预测细化的颜色。在这种情况下,点渲染退化为具有单个深度感知采样点的体渲染。通过解码  来获取辐射度和体密度,随后进行体渲染以获得呈现的视图。最终呈现的视图是通过对通过点渲染和体渲染呈现的视图进行平均得到的。

逐个场景的一致性聚合优化

通用模型可以为未见过的场景重建合理的3D高斯表示。由于前述通用模型在几个给定的新视点重建高斯表示,主要挑战在于如何有效地将这些高斯表示聚合成单个高斯表示,以实现高效渲染。由于MVS方法的固有限制,通用模型预测的深度可能不完全准确,导致生成的高斯点云中存在噪声。直接连接这些高斯点云会导致大量噪声。此外,大量点会降低后续优化和渲染速度。一个直观的解决方案是对连接的点云进行降采样。虽然减少了噪声,但也减少了有效点的数量。

cf71e598a52886299fc06a6785bc6778.png

一个良好的聚合策略应该尽可能减少噪声点,保留有效点,并确保总聚合点数不过大。为此引入了一种基于多视角几何一致性的聚合策略。在不同视点上对同一3D点的预测深度应该表现出一致性。否则,预测的深度被认为不可靠。这种几何一致性可以通过计算不同视图之间的重投影误差来衡量。如图3所示,给定要检查的参考深度图  和来自附近视点的深度图 ,首先将中的像素投影到附近视图,得到投影点为:

5e0a82f8f0c035efdd12f32e0dcb579c.png

将获得的像素通过估计深度反向投影到参考视图,得到重新投影的点为:

9be861f65e514f8dfb548f0998b04510.png

投影误差计算:

45b9ccac33e7d9581bf064c42fe15092.png

参考图像将与其余每个图像成对比较,以计算重投影误差。采用动态一致性检测算法来选择有效的深度值。其主要思想是,在少数视图中具有非常低的重投影误差或在大多数视图中具有相对较低的误差时,估计的深度是可靠的。可以表示如下:

c10c1b03f35710eb4f16b407b23d781a.png

其中,θ和θ表示预定义的阈值,其值随着视图数量的增加而增加。当有个附近视图满足相应的阈值θ和θ时,深度是可靠的。过滤不满足条件的噪声点,并存储正确可靠的点。

完整的目标函数

模型在只有RGB图像作为监督的情况下进行端到端训练。使用均方误差(mse)损失、结构相似性(SSIM)损失和感知损失来优化通用模型,具体如下所示:

b1f04a828e1f3e0fb19293870c8e108b.png

其中表示粗到精阶段的第个阶段的损失。λ和λ表示损失权重。总体损失是每个阶段损失的总和:

a36321133793af5a1342067a31170c0c.png

在每个场景的优化过程中,使用L1损失结合D-SSIM项来优化高斯点云,其中λ表示第个阶段的损失权重:

27b0ec7e55f8e6b4139cbaf52cf78f4f.png

实验效果

  • 定性结果:模型在生成高质量视图方面表现出色,具有更多的场景细节和更少的伪影。

  • 定量结果:在每个场景优化后的结果,模型在较短的优化时间内实现了最佳性能。

36931d25fed47d6633ade688d3b9dfa3.png a887eb8124544f62ece2b83f51fdf172.png ae44ad1b3d24e16956e82afe1b53c274.png 9af9a56c37e7798e98486018b61301ae.png 84b3a6e84d758e6aa9abed8321f442e2.png f58c382cace729b12f2859f9bf8223fd.png 31e15ee9d450661190ce5e203288ad0d.png

总结一下

MVSGaussian 是一种新的可泛化高斯喷射方法,利用MVS对几何信息进行编码,建立像素对齐的高斯表示,主要特点如下:

  • 增强泛化性:利用混合高斯渲染方法,集成了高效的深度感知体积渲染

  • 泛化能力,并具备场景微调能力

  • 高质量的初始化:引入一种多视图几何一致的聚合策略

  • 实时渲染,训练计算成本更低

局限性:依赖于MVS进行深度估计,在纹理弱或反射区域深度准确度下降,导致视图质量下降。

参考

[1] Fast Generalizable Gaussian Splatting Reconstruction from Multi-View Stereo

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

6306fb364c83fb39ad1182d77b4e0f4d.png

网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

0a1b7ab6465d294de22fe0bf3176e674.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

bc0d0101a13571dd3e8a0c0821ec4754.jpeg

④【自动驾驶之心】全平台矩阵

a9dbf87d1c1ea95d127ac1c1b378c0a1.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值