FSGS:少视图输入的实时3D-GS新方法

论文标题:

FSGS: Real-Time Few-shot View Synthesis using Gaussian Splatting

论文作者:

Zehao Zhu, Zhiwen Fan1, Yifan Jiang, Zhangyang Wang

项目地址:

https://zehaozhu.github.io/FSGS/

导读: 在这项工作中作者提出了一个实时少视图输入的框架FSGS,它可以用于在输入的各个视图没有有效重叠情况下的新视图合成任务。FSGS从极稀疏的SfM点云初始化开始,采用了基于点的表示方法,提出了一种通过测量每个高斯值与其相邻点接近度的高斯上采样方法。©️【深蓝AI】编译

1. 工作概述

现有基于NeRF的少样本视角合成技术往往为了获得准确的3D表示而效率往往大打折扣。为了解决这一挑战,研究人员提出了一种基于3DGS的少样本视角合成框架FSGS,可以实现在三个训练视角下实时逼真的视角合成。该方法通过设计的高斯上采样过程处理极为稀疏的初始化SfM点,在最具代表性的位置周围分布新的高斯函数并进行迭代,随后在空缺区域填充局部细节。研究人员还在高斯优化过程中加入了大规模预训练的单目深度估计器,利用在线增强视角来引导几何优化以获得最优解。

该项工作的贡献如下:

· 提出了一种新颖的基于点的少视图输入的新视角合成框架,其特点是利用临近度引导的高斯上采样技术对高斯进行密度化处理,以实现对场景的全面覆盖范围。

· 该框架集成了单目深度先验知识,并通过虚拟采样训练视图进行增强,以引导高斯优化达到最优解。

· FSGS 配备了增强型训练范例,不仅实现了实时渲染速度(200+FPS),还提高了视觉质量,为在现实世界场景中的实际应用铺平了道路。

2. 关键技术

在这里插入图片描述
图1|pipeline图©️【深蓝AI】编译

3DGS是由 SfM 对输入图像完成点初始化的(图中黑色摄像机)。对于稀疏位置的高斯分布,研究人员提出对新的高斯进行密集化处理,将现有的高斯分布分离成新的高斯分布,并适当初始化高斯属性来提高场景覆盖率。使用通过采样未观察到的视图(红色相机)来增强的单眼深度先验,来指导生成高斯分布的优化到一个合理的几何形状。最终的损失函数包括一个光度损失项,和一个深度相关性计算的几何正则化项。

建模场景的粒度在很大程度上取决于表示场景的三维高斯分布的质量;因此,解决有限的三维场景覆盖问题对于稀疏视图的重建任务至关重要。

2.1 Proximity Score and Graph Construction

在高斯优化过程中,研究人员构造了一个有向图(邻近图),通过计算欧氏距离将每个现有的高斯与其最近的 K K K个近邻的高斯连接起来。将图首的原始高斯表示为“源”高斯,而图尾的高斯表示为“目的地”高斯,这是源的K个近邻之一。分配给每个高斯的邻近度得分是根据其与 K K K个近邻的平均距离计算得出的。在优化过程中进行密集化或剪枝处理后,会更新邻近度图。在实际应用中将 K K K设为3。

2.2 Gaussian Unpooling

在这里插入图片描述
图2|高斯上采样技术©️【深蓝AI】编译

上图展示了一个用深度信息引导可视化高斯上采样的二维视图的积木案例,其中一维深度可以提供高斯与观察方向的相对距离的先验,引导高斯变形趋向更好的解。

2.3 Geometry Guidance for Gaussian Optimization

该项工作在通过高斯上采样算法实现了密集覆盖后,利用用多视图线索的光度损失进行高斯算法的优化。然而,在稀疏视图条件下的观察不足限制了学习几何连续性的能力,导致训练视图的过拟合的风险很高,对新视图的泛化能力很差。这就需要加入额外的正则化和先验来指导高斯优化。具体地说,作者通过一个预选练好的的单眼深度估计器产生的深度先验的帮助,来引导高斯几何优化到一个合理的解。

2.4 Injecting Geometry Coherence from Monocular Depth

研究人员使用预先训练的密集预测transformer(DPT)在训练视图上生成单目深度图。为了减轻真实的场景尺度和估计的深度之间的尺度模糊性,研究人员在估计和渲染的深度图上引入了一个相对损失–皮尔逊相关性。它测量了二维深度图之间的分布差异,并遵循以下函数:

C o r r ( D ^ r a s , D ^ e s t ) = C o v ( D ^ r a s , D ^ e s t ) V a r ( D ^ r a s ) V a r ( D ^ e s t ) \mathrm{Corr}(\hat{D}_{\mathrm{ras}},\hat{D}_{\mathrm{est}})=\frac{\mathrm{Cov}(\hat{D}_{\mathrm{ras}},\hat{D}_{\mathrm{est}})}{\sqrt{\mathrm{Var}(\hat{D}_{\mathrm{ras}})\mathrm{Var}(\hat{D}_{\mathrm{est}})}} Corr(D^ras,D^est)=Var(D^ras)Var(D^est) Cov(D^ras,D^est)

这种软约束允许深度结构的对齐,而不受绝对深度值不一致的阻碍。

2.5 Differentiable Depth Rasterization

为了在指导高斯训练之前从深度反向传播,研究人员实现了一个可微深度光栅化器,允许接收渲染的深度和估计的深度深度之间的误差信号。具体说,研究人员利用3D-GS中的 α \alpha α混合渲染进行深度栅格化,其中有序高斯分布对像素的缓冲区累积以产生深度值:

d = ∑ i = 1 n d i α i ∏ j = 1 i − 1 ( 1 − α j ) d=\sum_{i=1}^nd_i\alpha_i\prod_{j=1}^{i-1}(1-\alpha_j) d=i=1ndiαij=1i1(1αj)

完全可微的实现支持深度相关损失,进一步提高了渲染深度和估计深度之间的相似性。

2.6 Optimization loss

综上所述,研究人员提出了以下损失来进行整体框架的训练:

L ( G , C ) = λ 1 ∥ C − C ^ ∥ 1 ⏟ L 1 + λ 2 D − S S I M ( C , C ^ ) ⏟ L s s i m + λ 3 ∥ C o r r ( D r a s , D e s t ) ∥ 1 ⏟ L p r i o r \begin{aligned} \mathcal{L}({G},{C})& =\lambda_{1}\underbrace{\left\|C-\hat{C}\right\|_{1}}_{\mathcal{L}_{1}}+\lambda_{2}\underbrace{\mathrm{D-SSIM}({C},\hat{{C}})}_{\mathcal{L}_{\mathrm{ssim}}} \\ &+\lambda_3\underbrace{\left\|\mathrm{Corr}(D_\mathrm{ras},D_\mathrm{est})\right\|_1}_{\mathcal{L}_\mathrm{prior}}& \text{} \end{aligned} L(G,C)=λ1L1 CC^ 1+λ2Lssim DSSIM(C,C^)+λ3Lprior Corr(Dras,Dest)1

其中 L p r i o r \mathcal{L}_{\mathrm{prior}} Lprior表示在训练视图和渲染出的新视图上的几何正则化项,经2000次迭代后开始进行新视图采样,以确保高斯分布可以粗略地表示场景。

3. 实验效果

作者使用了三种数据集进行实验对比,分别是LLFF Datasets、Mip-NeRF 360 Datasets 、Blender datasets。

3.1 LLFF Datasets

在这里插入图片描述
图3|LLFF数据集方法对比©️【深蓝AI】编译

上图实验展示了由3D-GS 、Mip-NeRF360、SparseNeRF和FSGS的比较方法产生的新的视图结果。可以观察到,基于NeRF的方法产生杂影(场景:花),也会产生混叠结果(场景:叶子)。3D-GS由于对训练视图的过度拟合产生过于平滑的结果,造成的过拟合的训练视图。新方法在生成了精细的结构细节以及令人满意的外观。

在这里插入图片描述
表1|LLFF数据集方法对比©️【深蓝AI】编译

FSGS在两个分辨率数据的渲染精度和推理速度方面都取得了最好的性能。值得注意的是,FSGS比之前最好的SparseNeRF运行速度快2180倍,同时在数据图片分辨率为503×381时,将SSIM从0.624提高到0.682。

3.2 Mip-NeRF360 Datasets

在这里插入图片描述
图4|Mip-NeRF360数据集方法对比©️【深蓝AI】编译

作者将FSGS与3D-GS 、Mip-NeRF360和SparseNeRF进行了比较。与其他方法相比,新方法在大尺度场景中仍能产生视觉效果更佳、细节更清晰的结果。

在这里插入图片描述
表2|Mip-NeRF360数据集方法对比©️【深蓝AI】编译

FSGS与基于NeRF的方法相比优势明显,SSIM提高了0.05以上,运行速度提高了4142倍。此外,新方法不仅在渲染指标上比3D-GS更好,而且在FPS 上也有所提高(从223倍提高到290倍)。

3.3 Blender Datasets

在Blender数据集下实验结果也与上面两个数据集类似。这验证了所提出的技术在物体级三维建模中的泛化性。

在这里插入图片描述
图5|Blender数据集方法对比©️【深蓝AI】编译

在这里插入图片描述
表3|Blender数据集方法对比©️【深蓝AI】编译

3.4 Ablation Study

在这里插入图片描述
图6|消融实验可视化©️【深蓝AI】编译

在这里插入图片描述
表4|消融实验对比©️【深蓝AI】编译

3D-GS显示,当视图覆盖范围不足时,baseline的性能明显下降。高斯上采样为3D Gaussians提供了额外的能力,但学习到的几何图形可能并不准确。但是通过实验发现高斯上采样比3D-GS中的密集化方案对少镜头视图合成更有效。添加深度相关正则化可以进一步改善建模细节。应用来自单目深度估算器的额外监督可进一步规范高斯优化,从而获得更好的解决方案。

4. 总结与未来展望

通过实验结果可知,采用单目深度先验可以有效地引导扩展后的场景几何图形生成更好的效果。FSGS只需3张输入图像就可以生成逼真的新视角图像,并以超过200帧/秒的速度执行推理过程,为实时渲染等任务提供了更加节省成本与快速的方法。该项技术也使few shot的三维重建任务提升到新的高度,使场景重建需要的拍摄和计算成本大幅度下降,也使得实时三位重建任务的实现变成了可能。

编译|Northeastern

审核|Los

移步公众号【深蓝AI】,第一时间获取自动驾驶、人工智能与机器人行业最新最前沿论文和科技动态。

  • 24
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值