MVGS:3DGS优化新范式!最强3D与4D重建方法!

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba和3DGS】交流群

添加微信号:CVer111,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

711cf4a0329dfcdc1753999e5a3b1443.png

编辑:CVer 微信公众号| 作者:Xiaobiao Du

69dd6b9d41552a52d79aa4f108460bc2.png

https://xiaobiaodu.github.io/mvgs-project/

论文:https://arxiv.org/pdf/2410.02103

代码: https://github.com/xiaobiaodu/MVGS

62c8295f9c03de42e0d6a6d4be99d8d6.png

摘要

最近在体积渲染领域开展的工作,例如 NeRF 和 3D Gaussian Splatting(3DGS)借助学习到的隐式神经辐射场或 3D Gaussians,大大提高了渲染质量和效率。Vanilla 3DGS 及其变体在显式表示的基础上进行渲染,通过在训练过程中采用 NeRF 的每次迭代单视角监督来优化参数模型,从而提高实时效率。因此,某些视图被过度拟合,导致新视图合成中出现不令人满意的外观和不精确的三维几何图形。为了解决上述问题,我们提出了一种新的 3DGS 优化方法,其中包含四个关键的新贡献:

  1. 我们将传统的单视角训练模式转变为多视角训练策略。通过我们提出的多视角约束,可以进一步优化三维高斯属性,而不会过度拟合某些训练视角。作为一种通用解决方案,我们提高了各种场景和不同高斯变体的整体准确性。

  2. 受多视图训练带来的好处和启发,我们进一步提出了cross-intrinsic guidance方案,从而实现了从粗到细的不同分辨率训练程序。

  3. 在多视角约束训练的基础上,我们进一步提出了cross-ray densification策略,从选定的视角出发,在射线交叉区域致密化更多的高斯核。

  4. 通过进一步研究致密化策略,我们发现当某些视图显著不同时,致密化的效果应该得到加强。作为解决方案,我们提出了一种新颖的multi-view augmented densification策略,即鼓励三维高斯相应地致密化到足够的数量,从而提高重建精度。

我们进行了大量实验,证明我们提出的方法能够在各种任务中将基于高斯的显式表示方法的新视图合成的 PSNR 提高约 1 dB。

介绍

对于无界场景或单个物体的写实渲染在工业和学术领域都具有重要价值,如多媒体生成、虚拟现实和自动驾驶等。传统的基于几何图元的表示方法(如网格和点云)通过高效的光栅化技术实现了实时渲染。尽管这种渲染机制具有较高的效率,但在呈现精细、准确的外观时,仍然存在模糊伪影和不连续性的问题。

相反,隐式表示和神经辐射场(NeRF)利用多层感知机(MLP)提高了渲染高保真几何结构的能力,保留了更多细节。然而,即使采用加速算法,推理效率仍然有限。

近年来,基于3D高斯的显式表示(如高斯点阵)凭借定制的光栅化技术,在渲染质量和效率上都达到了最新水平。这种训练策略通过每次迭代使用单个相机视角的样本进行训练,在NeRF中常见。然而,由于其显式特性,我们观察到这种单视角训练模式容易导致过拟合,不能精确呈现场景中的所有细节。

本文提出了一种通用优化方法MVGS,增强了基于高斯的显式方法的精度。我们的主要贡献是改变传统的单视角训练方式,提出多视角约束学习。在训练过程中,3D高斯通过多个视角的结构和外观联合学习,避免了过拟合问题。此外,我们提出了从低分辨率到高分辨率的cross-intrinsic guidance,低分辨率训练提供了多视角信息,有助于在高分辨率训练中雕刻更精细的细节。

为了提高多视角学习的效果,我们还提出了一种Cross-ray Densification策略,利用2D损失图引导3D高斯在重叠区域进行密集化,从而提高多视角下的重建性能。此外,当视角差异显著时,我们提出了多视角增强的密集化策略,鼓励3D高斯适应多视角信息,改善表现。

大量实验表明,我们的方法在各种任务上提升了基于高斯方法的新视角合成精度,包括一般物体重建、4D重建和大规模场景重建。实验结果显示,随着每轮优化中视角数量的增加,精度得到显著提升。

方法

f93a863ad3bb77b11d9b2f91d8e09037.png

Gaussian Splatting 最近被提出用于实时的新视角合成和高保真 3D 几何重建。与 NeRF 和 NeuS 中采用的隐式表示(如 NeRF 中的密度场和 NeuS 中的 SDF)不同,Gaussian Splatting 利用了一组各自具有位置、颜色、协方差和不透明度的各向异性 3D 高斯函数来参数化场景。这种显式表示与之前的 NeRF 和 NeuS 方法相比,显著提高了训练和推理效率。

在渲染过程中,Gaussian Splatting 采用了基于点的体积渲染技术,类似于 NeRF。如图(a)所示,我们指出 NeRF 由于其点采样策略和隐式表示,无法在一个训练迭代中接收多视角监督。图像中像素 的视角依赖辐射 是通过混合沿着射线 的一组 3D 高斯来计算的。NeRF 使用采样器分配的点在辐射场中进行近似混合,而 3DGS 则通过栅格化与沿射线 的 个参数化核 进行精确混合。

假设第 个高斯 的属性分别由颜色 、不透明度 和协方差 描述,渲染的像素辐射 表示为

其中颜色 由透光率 加权。这里 表示高斯核的位置 与查询像素 之间的距离。 表示 3D 高斯的数量。

给定 对地真图像 及其对应的相机外参 和内参 ,即 ,3DGS 的目标是重建由多视角立体数据描述的 3D 模型。在训练策略方面,3DGS 遵循 NeRF 的惯例,即通过每次迭代的单视角监督来优化参数模型。关于训练,3DGS 通常通过每次迭代中的单视角信息监督进行优化,其中每次迭代中的监督是随机选择的 。因此,原始 3DGS 的损失函数可以相应地表示为:

其中, 和 分别表示平均绝对误差和 D-SSIM 损失。 表示部分 会在单视角监督模式下受到较大的梯度影响。实际上,超参数 用于控制这两个损失项之间的比例。

Multi-view Regulated Learning

考虑到隐式表示(例如 NeRF)依赖于预训练的采样器来近似最具置信度的混合点,多视角监督并不能保证相较于单视角训练的提升,特别是在采样器未经过充分训练时。显式定义的高斯核则不依赖于采样器进行分配,因此我们提出的多视角训练策略是可行的,其中大部分混合核 可以通过多视角加权梯度进行反向传播,从而克服某些视角的过拟合问题。

与原始的单视角迭代训练不同,我们提出了一种多视角约束的训练方法,以多视角监督的方式优化 3D 高斯。具体来说,在一次迭代中,我们采样 对监督图像和相机参数。因此,我们提出的在单次迭代中整合梯度的多视角约束学习可以表示为:

其中 表示在多视角训练中,每个视角的部分 3D 高斯 将受到大的梯度影响。与原始 3DGS 损失的唯一不同之处在于,我们提出的方法为优化一组 3D 高斯 提供了多视角约束。

通过这种方式,优化每个高斯核 可能会受到多视角信息的调节,从而克服对某些视角的过拟合问题。此外,多视角约束使 3D 高斯能够学习并推导出视角依赖信息,如反射,因此我们的方法在反射场景的新视角合成中表现良好。

Cross-intrinsic Guidance

如方法图底部所示,受图像金字塔的启发,我们提出了一种粗到细的训练方案,使用不同的相机设置(即内参 ),通过简单地补充更多的光栅化平面来实现。具体来说,通过重新配置 中的焦距 和主点 ,可以构建一个具有降采样因子 的四层图像金字塔,如图(d) 所示经验上,设置 为 8 已足够容纳足够的训练图像进行多视角训练, 等于 1 意味着未应用降采样操作。对于每一层,我们有匹配的多视角设置 。特别地,较大的降采样因子允许容纳更多视角,从而提供更强的多视角约束。

在最初的三个训练阶段,我们只在每个阶段运行几千次迭代,而不完全训练模型。由于目标图像经过降采样,模型在这些早期阶段无法捕捉到细节。因此,我们将前三个训练阶段视为粗略训练。在粗略训练期间,整合更多的多视角信息对整个 3D 高斯施加更强的约束。在这种情况下,丰富的多视角信息为整个 3DGS 提供了全面的监督,并促进粗略纹理和结构的快速拟合。

一旦粗略训练完成,细致训练就会开始。由于先前的粗略训练阶段提供了 3DGS 的粗略结构,细致训练阶段只需细化和雕刻每个 3D 高斯的细节。特别是,粗略训练阶段提供了大量的多视角约束,并将所学习的多视角约束传递到接下来的细致训练中。该方案有效地增强了多视角约束,并进一步提高了新视角合成的性能。

Cross-ray Densification

由于体积渲染的特性以及3D高斯(3DGS)的显式表示,某些区域的3D高斯在渲染时对不同视角有显著影响。例如,当相机从不同姿态拍摄中心时,中央的3D高斯在渲染中至关重要。然而,找到这些区域并不简单,尤其是在三维空间中。我们提出了一种交叉射线密集化策略,从二维空间开始,然后自适应地在三维空间中搜索。具体而言,我们首先计算多个视角的损失图,然后使用大小为的滑动窗口定位包含最大平均损失值的区域。随后,我们从这些区域的顶点发射射线,每个窗口发射四条射线。接着,我们计算不同视角射线之间的交点。由于每个视角发射四条射线,这些交点可以形成多个立方体。这些立方体是包含显著3D高斯的重叠区域,在为多个视角进行渲染时发挥着重要作用。因此,我们在这些重叠区域中进一步密集化更多的3D高斯,以促进多视角监督的训练。该策略依赖于准确搜索包含对多个视角具有高度重要性的3D高斯的重叠区域。首先,我们选择损失引导,因为它突出了每个视角需要改进的低质量区域。其次,射线投射技术使我们能够定位包含一组对这些视角贡献显著的3D高斯的三维区域。基于准确的位置,这些区域中的3D高斯被视为多视角联合优化的关键。因此,我们在这些区域内密集化这些3D高斯,以提高这些视角的重建性能。

Multi-view Augmented Densification

为了实现快速收敛、避免局部最小值并学习细粒度的高斯核,同时在不同视角之间的差异显著时,我们提出了一种多视角增强密集化策略。具体而言,我们的策略基于原始3D高斯(3DGS)的密集化策略,并使用预定义阈值β来确定哪些3D高斯应进行密集化。如图所示,我们首先识别训练视角是否存在显著差异。我们不直接使用原始相机的平移,而是将采样视角的相机平移标准化到单位球体。这种方法使我们的策略适应各种场景。然后,计算每个相机与其他相机之间的相对平移距离 ,其中距离的数量n为M^2 - M,假设我们有M个训练视角。在我们的多视角增强密集化中,我们有一个自适应标准可以表示为:

其中H(·)是Heaviside函数,当输入大于或等于0时返回1。τ是预定义的超参数。通过这种方式,当每个视角之间的差异变大时,3D高斯的密集化程度也会增强。因此,我们提出的多视角增强密集化策略使得3D高斯能够更好地适应每个视角,并捕捉更细致的细节。

实验效果

132be3b2ff9801bbf7444a17aea357b2.png

6be402cef3ba1b72ad0c6ea3db2e2b6a.png

ec77b200785327a33c5a12ffe4db1268.png

bff0f0f8684f706c53cf9643f32a700f.png

cf15526386bdfd22ca4f450b1ec82bfa.png

 
 

何恺明在MIT授课的课件PPT下载

 
 

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

ECCV 2024 论文和代码下载

在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集

Mamba和3DGS交流群成立

 
 
扫描下方二维码,或者添加微信号:CVer111,即可添加CVer小助手微信,便可申请加入CVer-Mamba、3DGS微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、3DGS+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
 
▲扫码或加微信号: CVer111,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!

▲扫码加入星球学习
 
 
▲点击上方卡片,关注CVer公众号
整理不易,请赞和在看
### 关于 MASt3R 和 3DGS 技术的解析 #### MASt3R 技术概述 MASt3R 是一种实时密集 SLAM(Simultaneous Localization and Mapping)系统,专注于通过 3D 重建先验实现高精度的地图构建和定位功能。该系统的创之处在于其能够处理具有不同尺度的数据集,并通过优化姿态估计来减少预测中的不一致性[^1]。 具体而言,在 MASt3R 中,所有的姿态被定义为 \(T \in Sim(3)\),即特殊欧几里得群的一个扩展版本,允许缩放操作的存在。这种设计使得系统能够在不同的尺度下保持鲁棒性。此外,利用李代数和左加运算符更姿态的方式进一步增强了算法的灵活性和效率。 对于图像匹配部分,MASt3R 提供了一种端到端的方法,可以针对每张输入图片及其对应的像素位置回归出一个三维点、置信度值以及局部特征描述子。这些信息随后会被送入快速双向最近邻匹配器中以生成可靠的对应关系[^2]。 #### 3DGS 的含义及相关技术背景 关于 “3DGS”,如果将其拆解来看,“3D” 显然代表的是三维空间或者模型;而“GS” 则可能指代 **Global Structure** 或者其他类似的术语。目前并没有明确的技术名称完全匹配这一简称,但在计算机视觉领域内存在若干相关联的概念和技术方向: - **全局结构恢复 (Global Structure Recovery)**:这是许多现代SLAM框架的核心目标之一,旨在从稀疏观测数据集中推断完整的场景几何特性。 - **多视图立体视觉 (Multi-view Stereo, MVS)**:此技术致力于由多个视角下的二维投影重构物体表面形状,属于广义上的3D建模范畴。 因此,尽管无法确切指出某个特定名为“3DGS”的工具或库,但从上下文中推测它应该涉及某种形式的大规模三维环境感知能力。 #### 结合两者分析潜在关联 考虑到上述两点内容——一方面有基于深度学习改进传统SLAM流程的颖思路(MASt3R),另一方面又有强调整体结构性质获取的需求(假设性的3DGS)—我们可以设想这样一类综合型解决方案: 这类方案不仅具备精准追踪移动轨迹的功能,还能同步完成复杂环境下大范围区域内的精细网格化表示工作。换句话说就是把局部动态调整机制同宏观静态布局规划结合起来形成闭环控制系统。 以下是 Python 实现片段展示如何加载预训练好的神经网络权重文件来进行简单的前向传播计算过程作为例子说明: ```python import torch from torchvision import models device = torch.device('cuda') if torch.cuda.is_available() else torch.device('cpu') model = models.resnet50(pretrained=True).to(device) model.eval() dummy_input = torch.randn(1, 3, 224, 224, device=device) output = model(dummy_input) print(output.shape) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值