新思路!LM-Gaussian:大规模视觉模型助场景重建一臂之力

作者 | Xiaoxiao Long  编辑 | 3D视觉之心

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心3DGS技术交流群

本文只做学术分享,如有侵权,联系删文

大模型能带来什么帮助?

尽管已有一些尝试试图解决稀疏视角的场景重建问题,但现有的工作仍局限于简单的前向场景,比如LLFF数据集,该数据集只涉及小角度旋转和简单的场景方向。对于大规模的360度场景,不适定性和欠约束性的问题阻碍了这些方法的应用。

3DGS技术在稀疏视角条件下进行高质量的3D重建时面临三大主要障碍:

  1. 初始化失败:3DGS严重依赖于预先计算的相机位姿和点云来初始化高斯球。然而,传统的基于运动恢复结构(SfM)技术在稀疏视角下无法成功处理,由于输入图像之间的重叠不足,导致相机位姿不准确和点云不可靠,从而无法进行3DGS的初始化。

  2. 输入图像的过拟合:由于缺乏足够的图像提供约束,3DGS往往在稀疏输入图像上过拟合,从而生成严重失真的新合成视图。

  3. 细节缺失:由于多视角约束和几何线索有限,3DGS总是无法恢复捕获的3D场景的细节和未观测到的区域,这显著降低了最终的重建质量。

为了应对这些挑战,本文介绍的LM-Gaussian[1]是一种结合了大模型先验知识的创新方法,能够在稀疏输入图像的条件下生成高质量的重建。核心思想是利用各种大模型先验的力量来提升3D高斯分布的重建能力,主要包括三个目标:1)稳健的初始化;2)防止过拟合;3)细节保留。

在稳健的初始化方面,提出了一个新的初始化模块,使用来自DUSt3R的立体视觉先验代替传统的SfM方法。DUSt3R是一个综合性的立体视觉模型,它以图像对为输入,直接生成相应的3D点云。通过全局优化过程,它从输入图像中推导出相机位姿并建立一个全局注册的点云。然而,由于DUSt3R对前景区域的偏好,生成的全局点云经常在背景区域中出现伪影和漂浮物。为了解决这个问题,引入了一个背景感知的深度引导初始化模块。该模块初步使用深度先验来优化由DUSt3R生成的点云,特别是在场景背景区域。此外,通过几何一致性检查和基于置信度的评估进行迭代滤波操作,消除不可靠的3D点。这种方法确保生成一个干净且可靠的3D点云,以用于初始化3D高斯分布。

一旦获得稳健的初始化,通常使用光度损失来优化3D高斯球。然而,在稀疏视角设置下,仅仅使用光度损失会导致3DGS在输入图像上过拟合。为了解决这一问题,引入了多个几何约束,有效地规范了3DGS的优化过程:

  • 引入了一个多尺度深度正则化项,以鼓励3DGS捕捉深度先验的局部和全局几何结构。

  • 引入了一个余弦约束的法线正则化项,以确保3DGS的几何变化与法线先验保持一致

  • 应用了一个加权的虚拟视角正则化项,以增强3DGS在未观测视角下的鲁棒性。

为了保留复杂的场景细节,引入了一个迭代高斯细化模块,该模块利用扩散先验恢复高频细节。利用基于扩散的高斯修复模型来修复从3DGS渲染的图像,旨在增强图像细节并产生良好的视觉效果。这些增强的图像被用作额外的伪真实数据,以优化3DGS。在3DGS优化过程中,反复执行这种细化操作,逐渐将图像扩散先验注入3DGS以增强细节。

具体方法

概述

LM-Gaussian旨在通过有限数量的输入图像生成高质量的360度场景新视角。集成了多种大模型先验,并由四个关键模块组成:

  1. 基于深度感知的初始化:该模块扩展了DUSt3R,用于相机姿态估计和详细的3D点云创建。通过集成深度先验和点云清理,实现了用于高斯初始化的高质量点云。

  2. 多模态正则化高斯重建:除了3DGS中使用的光度损失外,还引入了深度、法线和虚拟视角约束,以正则化优化过程。

  3. 迭代高斯细化:使用图像扩散先验增强由3DGS渲染的图像。这些改进的图像进一步细化3DGS的优化,通过迭代引入扩散模型先验来提高新视角合成的细节和质量。

  4. 场景增强:除了图像扩散先验,还应用了视频扩散先验,进一步增强3DGS渲染图像的逼真视觉效果。

8b18c5c30b3980630ef5ece2088540ad.png

基于背景感知的深度引导初始化

传统上,3D高斯分布(3DGS)依赖通过运动恢复结构(SfM)方法计算的点云和相机位姿进行初始化。然而,在稀疏视角设置下,SfM方法经常面临挑战。为了解决这个问题,提出了利用立体视觉先验作为替代方案。DUSt3R 是一个端到端的稠密立体模型,它可以接收稀疏视角图像作为输入,并生成稠密的点云和相机位姿。然而,DUSt3R生成的点云在场景的背景区域容易出现浮动物体、伪影和失真,特别是在3D场景的背景部分。

为了解决这些问题,提出了基于背景感知的深度引导初始化模块,该模块能够生成稠密且精确的点云。此模块集成了四个关键技术:

  1. 相机位姿恢复:最初,利用DUSt3R为每张图像生成点云。然后,将相机位姿和点云对齐到一个全局一致的坐标系中。此过程通过最小生成树算法来完成,以确保所有相机位姿和点云的对齐是一致的。接下来,使用一个优化方案来提升对齐点云的质量。起初,按照DUSt3R的方法,最小化点云投影损失  。对于图像对 ,其中  和  分别表示第k视角和第l视角的点云图。目标是评估k视角中3D点与l视角点云转换后的几何一致性。

  2. 深度引导优化:仅依赖点云投影损失进行优化可能不足以重建大规模场景,这会导致背景区域浮动和场景失真的问题,这些问题会影响后续的重建过程。为了解决这些问题,引入了一个单目深度估计模型(Marigold),该模型以其在深度估计领域的高性能表现而闻名,可以为场景深度信息提供有力的支持。优化网络中的深度引导优化通过结合DUSt3R的输出与深度指导,显著提高了深度感知,从而有效减少了场景失真。

  3. 点云清理:为了消除浮动和伪影问题,实施了两种清理策略:基于几何的清理和基于置信度的清理。基于几何的清理在深度优化过程中迭代执行,通过比较3D点在不同视角下的投影差异来去除不可靠的3D点。每经过指定的迭代次数后,执行几何清理步骤以移除漂浮的点云。优化过程结束后,应用基于置信度的清理策略,以在前景和背景之间进行区分,并使用不同的置信度阈值处理前景和背景区域,从而确保生成的点云更加稳定和准确。

6eb22808637c244e3846ec0fd8be4442.png
  1. 深度优化的点云清理:在基于几何和置信度的清理之外,还在优化过程中引入了背景感知的深度引导,以确保不仅前景区域细致,背景区域也得到了合理的优化。具体方法包括使用图像对的投影一致性来减少背景噪声和伪影,进一步提升点云的全局一致性。

e46a50480f21a8cbd4fbf43c592698be.png

多模态正则化高斯重建

通过基于背景感知的深度引导初始化,获得了稠密的点云和相机姿态。这些变量用作高斯核的初始化。传统的3DGS方法使用光度损失函数(如L1和LSSIM)来优化3DGS核,使其捕捉基础的场景几何结构。然而,在输入图像极其稀疏的情况下,挑战随之而来。由于高斯表示的固有偏差,高斯核容易在训练视图上过拟合,从而导致在未见过的视角中性能下降。为了解决这个问题,通过整合光度损失、多尺度深度损失、余弦约束的法线损失和基于范数加权的虚拟视图损失,增强了高斯优化过程。

光度损失:与传统3DGS一致,首先计算输入RGB图像与高斯渲染图像之间的光度损失。光度损失函数结合了L1和SSIM项。

f16827834509386fc889dc4187fa80b7.png

其中, 是一个超参数, 表示光度损失。

多尺度深度正则化:为了解决上述挑战,可以将深度信息引入高斯场景,以在训练期间提供正则化。与初始化模块类似,首先使用单目估计模型Marigold从稀疏的输入图像中预测深度图。由于单目深度估计模型通常提供相对深度预测,而不具有真实场景的尺度信息,使用皮尔逊相关系数(PCC)作为度量来评估深度图之间的相似性。皮尔逊相关系数是一种基本的统计学相关系数,用于量化两个数据集之间的线性相关性。简而言之,它评估了两个不同分布之间的相似性。

bc97d736234469b9c93499cf4ca3a6d0.png

余弦约束的法线正则化:为确保几何变化与法线先验保持一致,引入了余弦约束的法线正则化项。这个正则化项通过强制高斯核的法线与法线先验对齐,进一步提升了3DGS在几何结构上的一致性。

57c604cd08b06a3a7ee0ba8cc853da72.png

基于范数加权的虚拟视图正则化:为了提高3DGS在未见视角下的鲁棒性,引入了基于范数加权的虚拟视图正则化项。使用一个加权的融合算法来创建点渲染图像,并与高斯渲染图像保持一致性。这些虚拟视图提供了附加的几何约束,减少了网络在稀疏输入图像下的过拟合倾向。

c32854584e2c5479c718bca8dee60975.png

最终的多模态联合优化损失函数表示为:

610603fc3d035f3aaa89934baaf3af51.png

其中,、、 是控制各自正则化项权重的超参数。

迭代高斯细化

在此阶段,实施了一种迭代优化方法,以逐步增强场景的细节。首先,使用高斯修复模型对来自虚拟视角的高斯渲染图像进行均匀增强。该模型能够将模糊的高斯渲染图像优化为清晰且逼真的表示。优化后的图像作为附加指导,结合深度和法线正则化项,帮助进一步优化高斯核。经过  次优化步骤后,重新渲染高斯图像,并再次使用修复模型对其进行处理,替换之前的优化图像,以进行新一轮的监督。

1) 迭代高斯优化

最初,使用高斯核从虚拟视角生成  张图像。随后,使用高斯修复模型对这些图像进行均匀增强,生成一组修复后的图像,记作 。为了保持场景的连贯性并减少潜在冲突,将降噪强度设置为较低,并在每次修复过程中逐步重新引入有限的细节到高斯渲染图像中。这些修复后的虚拟视角图像,连同来自训练视图的单目深度图和法线图(详见IV-C部分),将用于调节高斯优化过程。高斯细化阶段的整体优化损失  表示为:

976f674f841f378fa2e83a3da2b996ec.png

其中, 和  分别对应于多模态正则化高斯重建过程中的深度正则化和法线正则化。修复损失  的权重由  控制,修复损失  定义为:

c3ba6dafd1175b5675ffc265264f3bc6.png

在此公式中,通过光度损失函数计算修复图像与高斯渲染图像之间的差异,并将修复图像作为指导参考。参数 、 和  与原始3D高斯分布方法中所使用的一致。上述操作将反复进行。

通过这种迭代优化策略,生成的新图像将逐步变得更加清晰,而不会受到视角差异所导致的模糊影响。优化过程将持续进行,直到确认扩散过程不再产生令人满意的结果,如与初始场景的偏差或视角之间的不一致性所示。

2) 高斯修复模型
b635dce7f75a5401a9d936099a1a5014.png
模型架构

高斯修复模型的架构如图6所示。该模型以高斯渲染图像和真实世界的输入图像为输入。在图6(b)中,高斯渲染图像 \ 经过图像编码,提取潜在的图像特征。真实世界的输入图像通过一个GPT API处理以生成描述提示 σ\,然后进行编码以获得文本的潜在特征。这些图像和文本的潜在特征作为条件输入给ControlNet来预测噪声 εθ\,并逐步去除高斯渲染图像中的噪声。该模型通过在ControlNet层中注入LoRA(Low-Rank Adaptation)进行微调,最终可以生成修复后的高斯渲染图像。图6(c)展示了Lora-ControlNet的工作原理,其中LoRA权重被集成到ControlNet的UNet中的每个Transformer层内。保持Transformer块的原始参数不变,仅训练低秩矩阵 \ 和 \,其中 \、\,并且 \。在文本编码器方面,如图6(d)所示,LoRA权重被集成到编码器的每个自注意力层中。Lora-Text编码器的输入是场景提示,输出为文本嵌入。

训练过程

首先,进行数据准备,收集图像对,场景中的输入图像作为参考图像。对于每个训练视角,随机选择 ω\ 张高斯渲染图像,并将其与输入图像配对,形成训练对。随后,这些图像对用于训练高斯修复模型。

如图6(a)所示,输入图像 \ 经过前向扩散过程。具体而言,图像被输入到图像编码器中,以提取潜在表示 \。该潜在表示随后经过一个扩散过程,其中噪声 ε\ 在 \ 步中逐步加入。在获得潜在表示 \ 后,开始反向扩散过程,如图6(b)所示,Lora-UNet和Lora-ControlNet在每一步预测噪声 εθ\。此预测的噪声与扩散过程中引入的噪声结合,进一步优化生成修复后的图像。

场景增强

鉴于输入图像稀疏且训练视角有限,预计从相邻新视角渲染的图像可能会显示出差异。为了确保沿着指定的相机路径进行高质量且一致的渲染,提出了一个视角增强模块,该模块利用视频扩散先验来改善渲染图像的一致性。

该模块的重点是增强渲染图像的视觉一致性,而不涉及高斯核的细化。首先,在预定的相机轨迹上渲染多张图像并进行分组处理。随后,使用一个视频扩散UNet来对这些图像进行去噪,以生成增强后的图像。在视频扩散模型中,使用DDIM逆向将高斯渲染图像映射回潜在空间,其公式可表达为:

4eb4e49bf923d4b0ac23db291d22638a.png

其中  是时间步长, 表示一个引导扩散过程的递减序列。σ 作为中间表示,包含了文本条件。

将高斯渲染图像映射到潜在空间的原因是为了利用潜在空间的连续性,保留不同视角之间的关系。通过在潜在空间中集体对图像进行去噪,旨在提高视觉质量,同时不牺牲空间一致性。

实验效果

08336dd76a39a1d069a3d22b0bf4c5cc.png cd73339c81d892cac1dcec38154d9403.jpeg 640e3a824e9d29b3d6cf4d9fe04e4a4c.png 922eb98f0dbfe6b7996fc5d85e488f1b.jpeg 22571cf4d4995522a62ca9e2b6d9b332.jpeg 764d51fb7cc3b2c5d0a22906a0762610.jpeg 99679a56ab8be2c6735f6d00d044d15c.png 7bd7dd794685c5064f5adf7b5d032bae.png a34a9b56babd9ad0f0a964e14ccae98a.png

总结一下

LM-Gaussian是一种利用大规模视觉模型先验的稀疏视角3D重建方法。该方法包含一个稳健的初始化模块:

  • 利用立体视觉先验来帮助恢复相机姿态和可靠的高斯球体。多模态正则化方法则利用单目估计先验来防止网络过拟合。

  • 采用了迭代扩散细化方法,将额外的图像扩散先验引入高斯优化中,以增强场景细节。

  • 利用视频扩散先验进一步改进了渲染图像的真实视觉效果。

与传统的3DGS方法相比,显著减少了数据采集要求,并且即便在360度场景中也能获得高质量的结果。当前,LM-Gaussian基于标准的3DGS构建,该技术目前仅适用于静态场景,未来希望引入动态3DGS技术,以实现动态建模

参考

[1] LM-Gaussian: Boost Sparse-view 3D Gaussian Splatting with Large Model Priors

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!重磅,自动驾驶之心科研论文辅导来啦,申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向,欢迎联系我们!

37712e1fcaa593629bea33722edc201e.jpeg

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

d2caa6e1f2b311392e462078b01bbef0.png

网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

7755ba5e83d0dcf1b9ea80e5151ecb66.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

f98c9390756827d29b64abcd836b801a.jpeg

④【自动驾驶之心】全平台矩阵

b87282249a70c180e46759df07c840bb.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值