不需要COLMAP的3DGS投影?

论文标题:COLMAP-Free 3D Gaussian Splatting

论文作者:Yang Fu, Sifei Liu, Amey Kulkarni, Jan Kautz, Alexei A. Efros, Xiaolong Wang

导读:
本文介绍了一种新的神经渲染方法,用于在不需要预先计算相机参数的条件下进行场景重建和新视角合成。该方法基于最近提出的3D高斯投影技术,利用了其显式的点云表示和输入视频流的时间连续性。该方法可以在按顺序处理输入帧的同时,逐渐增加3D高斯集合,从而实现了对大运动变化的场景的高效和真实的渲染。该方法在视角合成和相机姿态估计方面显著优于先前提出的方法。©️【深蓝AI】编译

1. 问题引入

随着神经辐射场(NeRFs)的兴起,照片级真实感场景重建和视角合成领域取得了明显的进步。训练NeRFs的一个关键步骤是为每张输入图像预先计算相机姿态。这通常是通过运行Structure-from-Motion(SfM)库COLMAP来完成的。然而,这种预处理不仅耗时,而且由于特征提取错误的敏感性以及处理单调或重复区域的困难,也可能会失败。

最近的一些研究希望通过将姿态估计纳入NeRF框架,来减少对SfM的依赖。同时进行3D场景重建和相机定位一直是计算机视觉领域的一个难题。在NeRF及其隐式表示的背景下,这个问题变得更加复杂,因为优化过程通常增加额外的约束。例如,BARF要求初始姿态与真实姿态接近(在15°内),NeRFmm主要适用于正面场景。最新的Nope-NeRF需要很长的训练时间(30小时),在相机姿态变化很大的情况下(例如360度)效果不佳,如图1的上面两张图所示。本质上,NeRFs是通过更新从相机位置发出的射线投影来间接地优化相机参数,这使得优化变得具有挑战性。

在这里插入图片描述
▲图1|新视角合成和相机姿态估计的比较。我们提出的无需COLMAP的3D高斯投影(CF-3DGS)在不依赖已知相机参数的情况下实现了更稳定的姿态估计和更优的新视角合成质量。©️【深蓝AI】编译

2. 方案提出

最近,3DGS投影方法被提出,通过采用点云表示扩展了NeRF中的体素渲染。虽然最初的想法是使用预先计算的相机参数的,但我们发现它为在没有SfM预处理的情况下,进行视角合成提供了一个新的方向。为此,本文提出了不需要COLMAP的3DGS投影(CF-3DGS)方法,它利用两个关键因素:视频中的时间连续性和显式的点云表示。

与一次性优化所有帧不同,研究者们选择以连续的方式生成场景的3D高斯,随着相机移动逐帧“生长”。在这个过程中,我们将为每一帧提取一个局部3D高斯集合,并维护场景的全局3D高斯集合。

假设我们按顺序迭代t = {1,…,T}帧,我们每次执行两个步骤:

1)给定帧t−1,我们构建一个局部3D高斯集合,并对下一个相邻的帧t进行采样。我们的目标是学习一个仿射变换,可以将帧t−1中的3D高斯变换到渲染帧t中的像素。神经渲染提供了优化仿射变换的梯度,这本质上是相邻帧t−1和t之间的相对相机姿态。这个优化并不困难,因为显式点云表示允许我们直接在其上应用仿射变换,这在NeRF中无法实现,并且两个帧很接近(时间连续性),这使得变换相对较小。

2)一旦我们得到了帧t−1和帧t之间的相对相机姿态,我们就可以推断出第一帧和帧t之间的相对姿态。这使得我们可以将当前帧的信息汇总到全局3D高斯集合中,在那里我们将对当前帧和所有之前的帧及相机姿态进行优化。

在这里插入图片描述
▲图2|本文方法概览。我们的方法将一系列图像作为输入,以学习表示输入场景的一组3D高斯,并联合估计帧的相机姿态。我们首先引入局部3DGS来估计两个相邻帧的相对姿态,通过近似高斯变换。然后,利用全局3DGS对场景进行建模,随着相机的移动逐步增加3D高斯的数量。©️【深蓝AI】编译

3. 方法详析

给定一系列没有设置姿态的图像以及相机内参,我们的目标是恢复相机姿态并重建照片级真实感的场景。为此,我们提出了CF-3DGS,同时优化3D高斯投影(3DGS)和相机姿态。本节中将对该方法进行详细介绍。

■3.1 3D高斯投影概述

3DGS将场景建模为一组3D高斯,这是一种显式的表示形式,与NeRF中使用的隐式表示形成对比。每个高斯由协方差矩阵Σ和中心(均值)点μ表征。

3D高斯的中心由一组稀疏点云初始化(例如,通常从SfM获取)。每个高斯的参数如下:(a) 中心位置;(b) 球谐(SH)系数表示颜色;© 旋转因子(以四元数表示旋转);(d) 尺度因子;(e) 不透明度。然后,协方差矩阵Σ描述了由缩放矩阵 S和旋转矩阵 R配置的椭球体。

为了优化3D高斯的参数来表示场景,我们需要以可微分的方式将它们渲染成图像。给定相机视图 W 的渲染涉及将高斯投影到图像平面上,这是通过沿深度维度将3D高斯的投影近似到像素坐标来实现的。

要执行场景重建,给定确定投影的真实姿态,我们通过学习其参数 μ 和 Σ 将一组初始化的高斯点拟合到所需的物体或场景上。通过可微分渲染器,所有这些参数以及 SH 和不透明度都可以通过光度损失轻松优化。在我们的方法中,我们采用估计的姿态替换真实姿态。

■3.2 局部3DGS的相对姿态估计

之前的研究证明了同时估计相机参数和优化神经辐射场(NeRF)的可行性。这通常涉及集成各种正则化项和几何先验。然而,与直接优化相机姿态不同,现有的大多数方法优先优化从不同相机位置发出的射线追踪过程。这是由隐式表示的性质和 NeRF 中射线追踪实现所决定的。这种间接方法通常会导致复杂且富有挑战性的优化,尤其是在大相机运动场景下。

另一方面,3DGS在场景表示中使用显式点云,允许简单直观的变形和运动,正如它在动态场景中的近期应用所展示的。为了利用3DGS的优势,我们引入了一个局部3DGS来估计相对相机姿态。

我们揭示了相机姿态和3D高斯刚体变换之间的关系。我们发现,估计相机姿态W等价于估计一组3D高斯点的变换。

从单视图初始化。如图2(底部)所示,我们首先利用现成的单目深度网络,即DPT ,生成单目深度。考虑到在不需要相机参数的情况下,单目深度 提供了强大的几何线索,我们使用相机内参和正交投影从单目深度初始化3DGS,而不是原始的SfM点。

初始化后,我们学习一组3D高斯,优化所有属性以最小化渲染图像与当前帧之间的光度损失。此步骤运行只需要大约5秒来拟合输入帧。

通过3D高斯变换估计姿态。为了估计相对相机姿态,我们将经过预训练的3D高斯 通过一个可学习的SE-3仿射变换变换到帧t+1。通过最小化渲染图像与下一帧 之间的光度损失来优化变换。变换T表示为四元数旋转和平移向量的形式。由于两个临时帧很近,因此其变换较小,更容易优化。与初始化阶段类似,姿态优化步骤也相当高效,通常只需要5-10秒。

■3.3 渐进增长的全局3DGS

通过在每对图像上使用本地3DGS,我们可以推断出第一帧和时间步t中的任意帧之间的相对姿态。然而,这些相对姿态可能存在噪声,会影响整个场景上优化3DGS的效果(见表5)。为了解决这个问题,我们以顺序方式渐进学习全局3DGS。

如图2(顶部)所示,从第t幅帧开始,我们首先用正交设置初始化一组3D高斯点,如前所述。然后,利用局部3DGS,我们估计帧和t+1之间的相对相机姿态。在此之后,全局3DGS使用估计的相对姿态和两个观察到的帧作为输入,更新3D高斯点集以及所有属性,持续N次迭代。当下一帧t+2可用时,将重复此过程:我们估计t+1和t+2之间的相对姿态,并相应地推断出t和t+2之间的相对姿态。

为了更新全局3DGS以覆盖新视图,我们将在新帧到达时密集化“重构不足”的高斯。我们通过视空间位置渐变的平均幅度确定密集化的候选对象。直观地说,未观察到的帧总是包含尚未重构良好的区域,并且优化试图移动高斯以大的渐变步骤进行修正。因此,为了使密集化集中在未观察到的内容/区域,我们每N步密集化全局3DGS,与添加新帧的节奏保持一致。此外,我们在训练阶段的中间停止密集化,而是直到输入序列的结束一直增长3D高斯点。通过迭代应用局部和全局3DGS,全局3DGS将从初始部分点云渐进增长到在整个序列中覆盖整个场景的完整点云,并同时完成照片级真实感的重建和准确的相机姿态估计。

4. 实验结果

我们在两个数据集上进行了实验:Tanks and Temples数据集和CO3D数据集。我们评估了视角合成和相机姿态估计任务,并与之前不需要预计算相机姿态的方法进行了比较。我们的方法在两个数据集的视角合成任务中都明显优于之前的方法。对于相机姿态估计,我们发现当相机运动较小时,我们的方法与最新的Nope-NeRF相当,当相机发生较大变化时,如CO3D中的360度视频,我们的方法优于所有方法。

在这里插入图片描述
▲表1|Tanks and Temples上的新视角合成结果。每个基线方法都是在原始设置下用其公开代码训练并评估的。©️【深蓝AI】编译

在这里插入图片描述▲表2|Tanks and Temples上的姿态精度。注意,我们在Tanks and Temples中使用COLMAP姿态作为“真值”。RPEr的单位为度,ATE为地面真值尺度,RPEt按100缩放。©️【深蓝AI】编译

在这里插入图片描述
▲图3|Tanks and Temples数据集上新视角合成的定性比较。我们的方法产生了比其他基线更逼真的渲染结果。©️【深蓝AI】编译

在这里插入图片描述
▲表3|CO3D V2上的新视角合成结果。每个基线方法都是在原始设置下用其公开代码训练并评估的。©️【深蓝AI】编译

在这里插入图片描述
▲表4|CO3D V2上的姿态精度。注意,CO3D提供的相机姿态作为“真值”。RPEr的单位为度,ATE为地面真值尺度,RPEt按100缩放。©️【深蓝AI】编译

在这里插入图片描述
▲表5|Tanks and Temples上渐进增长的消融实验。©️【深蓝AI】编译

在这里插入图片描述
▲表6|Tanks and Temples上深度损失的消融研究。©️【深蓝AI】编译

在这里插入图片描述
▲图4|CO3D V2数据集上新视角合成和相机姿态估计的定性比较。与Nope-NeRF相比,我们的方法估计相机姿态更为稳健,因此生成了更高质量的渲染图像。©️【深蓝AI】编译

在这里插入图片描述
▲表7|与COLMAP姿态的3DGS的比较。©️【深蓝AI】编译

5. 结论

本文提出了CF-3DGS——一个端到端的框架,可以从图像序列中联合估计相机姿态和新视角合成。并且本文介绍了以前的工作在处理大相机运动方面存在的困难。与NeRF的隐式表示不同,CF-3DGS方法利用显式点云来表示场景。该方法利用3DGS的功能和视频中的连续性来顺序处理输入帧,逐步扩展3D高斯以重建整个场景。借助高斯投影的优势,该方法可实现快速训练和推理。

编译|Deep蓝同学

审核|Los

移步公众号【深蓝AI】,第一时间获取自动驾驶、人工智能与机器人行业最新最前沿论文和科技动态。

  • 16
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值