#DRAMA

首个基于Mamba的端到端运动规划器(新加坡国立)

运动规划是一项具有挑战性的任务,在高度动态和复杂的环境中生成安全可行的轨迹,形成自动驾驶汽车的核心能力。在本文中,我们提出了DRAMA,这是第一个基于Mamba的自动驾驶端到端运动规划器。DRAMA融合了相机、特征空间中的LiDAR鸟瞰图图像以及自我状态信息,以生成一系列未来的自我轨迹。与传统的基于变换器的方法不同,DRAMA能够实现计算强度较低的注意力复杂度,从而显示出处理日益复杂的场景的潜力。DRAMA利用我们的Mamba融合模块,高效地融合了相机和激光雷达的功能。此外,我们引入了一个Mamba Transformer解码器,可以提高整体规划性能。该模块普遍适用于任何基于Transformer的模型,特别是对于具有长序列输入的任务。我们还引入了一种新的特征状态丢弃,在不增加训练和推理时间的情况下提高了规划器的鲁棒性。大量的实验结果表明,与基线Transfuser相比,DRAMA在NAVSIM数据集上实现了更高的精度,参数少,计算成本低。

51c自动驾驶~合集15_自动驾驶

总结来说,本文的主要贡献如下:

  1. 我们介绍了一种名为DRAMA的Mamba嵌入式编码器-解码器架构,其中包括一个编码器,该编码器通过Mamba Fusion模块有效地融合了相机和LiDAR BEV图像的特征,解码器通过Mamba Transformer解码器生成确定性轨迹,该解码器普遍适用于任何基于Transformer的模型。
  2. 我们在DRAMA中引入了多尺度卷积和特征状态丢弃模块,并采用了差异化的丢弃策略。这些模块通过在多个尺度上提取场景信息并减轻噪声传感器输入和缺失自我状态的影响,提高了模型的有效性和鲁棒性。
  3. 使用NAVSIM规划基准对提出的模块和总体架构进行了评估。实验结果表明,与基线相比,我们的模型在使用较少的模型参数和较低的训练成本的情况下实现了显著的性能提升。
相关工作回顾 Motion Planning for Autonomous Driving

自动驾驶的运动规划一直是机器人领域的一个长期研究课题。从传统的角度来看,运动规划是行为规划或决策的下游任务,它负责生成可驾驶和舒适的轨迹,保证安全。传统的运动规划通常依赖于几何和优化,可大致分为基于图、基于采样和基于优化的方法。基于图的方法,如A*和Hybrid A*,在离散化车辆配置空间后搜索最小成本路径。基于采样的方法在状态或动作空间内创建轨迹样本,以发现可行的路径。相比之下,基于优化的方法采用EM算法和凸优化等技术来确定满足指定约束的最佳轨迹。这些方法通常涉及大量的手动设计和优化,并且通常在动态或变化的环境中具有通用性。

随着专门用于运动规划的公共驾驶数据集和基准的发布,基于学习的轨迹规划得到了显著加速。目前,nuPlan是运动规划中最大的带注释规划数据集和基准。基于nuPlan和OpenScene数据集,最近开发了一个名为NAVSIM的数据集,以解决开环和闭环评估指标之间的不一致问题,并作为这些评估范式之间的中间地带。

基于这些开源数据集,[7]分析了数据驱动的运动规划方法中的误解,并提出了一种简单而高效的规划器,该规划器在nuPlan排行榜上排名第一。然而该规划器针对nuPlan指标进行了高度优化,当转移到其他场景时,其性能会下降。这些现有的基于学习的方法往往过度强调度量性能,往往以牺牲计算效率为代价。由于复杂的架构设计或用于轨迹评分和细化的在线模拟,其中许多方法由于无法实现的计算负担而变得枯燥乏味。为了提高计算强度和性能,我们提出了DRAMA,这是一种Mamba嵌入式编解码器流水线,旨在实现高效和卓越的规划性能。

State Space Models

为了减轻状态空间模型(SSM)在建模长期依赖关系时的大量计算和内存需求,[10]提出了结构化状态空间序列模型(S4),该模型将SSM中的A矩阵修改为具有低秩校正的条件矩阵。这种增强的模型Mamba在图像处理、语言处理和其他领域显示出巨大的应用潜力。[6] 从理论上证明了SSM与半可分矩阵的等价性。此外,引入了状态空间二元性(SSD)来增强原始的Mamba,该设计将多头注意力(MHA)融入SSM以优化框架,从而使改进版本(Mamba-2)表现出更大的稳定性和更高的性能。受到Mamba家族先前成功的启发,我们将最新的架构Mamba-2应用于端到端的运动规划。据我们所知,这是Mamba-2在自动驾驶领域的首次应用。为清楚和简洁起见,除非另有说明,否则所有后续提及曼巴的内容均适用于Mamba-2。

DRAMA方法详解

我们介绍了基于Mamba的端到端运动规划框架DRAMA,该框架使用卷积神经网络(CNN)和Mamba对相机和LiDAR BEV图像的特征进行编码和融合。解码器采用我们提出的Mamba Transformer解码器层对最终轨迹进行解码。在接下来的部分中,我们将详细探讨我们设计的四个模块:Mamba融合块、Mamba Transformer解码器层、多尺度卷积和特征状态dropout。

Mamba Fusion Block and Mamba-Transformer

Mamba Preliminaries:从连续系统导出的结构化状态空间序列模型(S4)利用1-D输入序列或函数x(t)和中间隐藏状态h(t)来产生最终输出y(t)。中间隐藏状态h(t)和输入x(t)用于通过投影矩阵A、B和C计算y(t)。

51c自动驾驶~合集15_自动驾驶_02

该系统应用可学习步长和零阶保持将连续系统转换为离散系统。因此,方程式(1)可以重新表述如下:

51c自动驾驶~合集15_自动驾驶_03

通过数学归纳,方程式(2)的最终输出可以改写如下:

51c自动驾驶~合集15_自动驾驶_04

矩阵M定义如下:

51c自动驾驶~合集15_自动驾驶_05

如方程(4)所述,下三角SSM变换矩阵M也满足N-顺序半可分(SSS)表示的定义。因此,SSM和SSS表示是等效的。

因此,SSS的结构化矩阵乘法可以有效地用于涉及SSM的计算。为了实现这种方法,分别使用结构化掩蔽注意力(SMA)方形模式算法和SMA线性模式算法将参数矩阵M分解为对角块和低秩块。此外,采用多头注意力(MHA)来提高模型性能。

曼巴融合:为了捕捉不同模态的多尺度背景,之前的基线在Transformer中实现了自我关注层,以融合和利用激光雷达和相机的特征。首先,对两种模态的特征进行转换和连接,生成组合特征I。然后,I将三个不同的投影矩阵、和相乘,得到Q、K和V。融合模块的最终输出可以通过以下方式计算:

51c自动驾驶~合集15_自动驾驶_06

计算复杂度的总体训练由以下公式给出:

51c自动驾驶~合集15_自动驾驶_07

我们建议使用Mamba作为特征融合的自我关注的替代方案,因为它具有高效的矩阵计算能力。我们坚持实施融合方法,如图2所示。与[4]不同,我们使用Mamba-2而不是Transformer来处理融合的特征。由于传统变压器自关注中没有复杂的计算,Mamba的计算成本大大降低。假设head维度P等于状态维度D,即P=D,则训练成本由下式给出:

51c自动驾驶~合集15_自动驾驶_08

51c自动驾驶~合集15_自动驾驶_09

在我们的曼巴融合模块中,我们设置了T E320和P E16,理论上与自我关注相比,在融合过程中训练成本降低了约20倍。

Mamba Transformer解码器:如图(3)所示,我们将Mamba和Transformer架构相结合,开发了新颖的Mamba Transformers(MT)解码器。最初,可学习的查询被传递到机器翻译的Mamba组件中,该组件的功能类似于self-att。由于与Mamba的交叉注意力仍在探索中,我们采用Transformer交叉注意力机制来处理来自Mamba的查询以及来自FSD模块的键和值。

51c自动驾驶~合集15_自动驾驶_10

Multi-scale Convolution

51c自动驾驶~合集15_自动驾驶_11

为了捕获多尺度图像特征,我们采用了多卷积设计,如图(4)所示,其中图像通过三个不同核大小的卷积层进行处理,分别为-5、7和9。这些卷积层的输出被组合在一起,并由多层感知器(MLP)层进一步编码,以增强模型的感知能力。

Feature State Dropout

由于硬件限制和机载传感器中的噪声,对周围环境的观察和感知(例如位置或速度)可能不准确,可能无法完全反映真实情况。此外,当导航模块的驾驶命令缺失时,或者在复杂的交通条件下导航时,即使在没有明确指导的情况下,模型也必须深入理解和推理场景和周围的代理,这一点至关重要。先前的研究表明,屏蔽某些图像和车辆状态特征可以提高自我监督任务和运动规划的整体性能。为了解决这些问题并基于这些见解,我们从两种模态和自我状态实现了图像特征融合的特征状态丢弃,如图5所示。最初,要编码的特征被添加了一个可学习的位置嵌入,然后是差异化的dropout来掩盖一些特征。

51c自动驾驶~合集15_自动驾驶_12

我们在DRAMA中采用了一种差异化的辍学策略,该策略对融合和自我状态特征应用了不同的辍学率。为融合特征分配相对较低的丢失率,以保持其完整性。该措施旨在避免融合感知信息的过度丢失,从而降低整体性能。

实验结果

定量结果

如表1所示,根据Transfuser(T)基线对拟议模块的评估显示,各种指标都有显著改善。整合多尺度卷积(MSC)可以提高PDM得分,从0.835增加到0.843,突出了其在捕获多尺度特征以提高整体模型性能方面的有效性。曼巴融合(MF)的加入进一步将PDM评分提高到0.848,自我进步(EP)从0.782显著提高到0.798,表明融合方式优越。特征状态丢失(FSD)显示了EP的最高单个模块增强,达到0.802,PDM得分为0.848,证明了其在减轻传感器输入不良方面的作用。此外,Mamba Transformer(MT)模块的PDM得分为0.844,碰撞时间(TTC)有了显著改善,突显了其强大的自我关注机制。在没有MSC的DRAMA中,这些模块的组合,即T+MF+FSD+MT,导致PDM得分为0.853,在所有指标上都有持续的改进,整个DRAMA模型达到了最高的PDM得分0.855,证实了综合方法的有效性。

51c自动驾驶~合集15_自动驾驶_13

表2显示了不同特征状态丢失率对模型性能的影响,表明改变状态和融合特征的丢失率可以提高模型的鲁棒性和准确性。基线Transfuser(T)得分为0.835。引入融合丢失率为0.1的FSD将得分提高到0.842,状态丢失率为0.5的FSD得分更高,为0.844,这表明该模型受益于处理缺失的状态特征。状态丢失率为0.5和融合丢失率为0.1的组合达到了最高得分0.848,表明这两种特征类型之间的平衡丢失率优化了模型性能。

51c自动驾驶~合集15_自动驾驶_14

表3全面比较了各种方法的培训和验证性能,强调了拟议模块的效率。基线Transfuser(T)的总参数大小为56 MB,训练和验证速度分别为每秒4.61次迭代(it/s)和9.73次迭代/秒。引入多尺度卷积(MSC)模块将训练速度略微降低到3.77it/s,同时保持类似的验证速度,这表明在增强的特征提取和计算成本之间进行了权衡。相反,Mamba Fusion(MF)模块将总参数大小显著减小到49.9 MB,并将训练速度提高到4.92 it/s,验证速度提高到9.94 it/s,展示了其在模态融合方面的卓越效率。

51c自动驾驶~合集15_自动驾驶_15

特征状态dropout(FSD)的集成保持了与基线相当的速度,在不增加计算开销的情况下证明了其效率。这一发现突显了FSD模块的通用性和轻质性,可以有效地将其整合到各种型号中以提高其性能。

Mamba Transformer(MT)模块在性能和速度方面实现了平衡的提高,尽管它将训练速度略微降低到4.51it/s。这是由于我们的输入长度T31小于状态维度D128,从而将训练成本从Ω()增加到Ω()。没有MSC的DRAMA组合架构通过将总参数减少到50.4MB,训练和验证速度分别为4.84it/s和9.91it/s,进一步提高了效率。最后,包含所有模块的完整DRAMA模型保持了50.6 MB的参数大小,但训练速度略有下降,降至3.86 it/s。尽管如此,它还是获得了最高的PDM分数,验证了集成方法的整体有效性和效率。

定性结果

我们展示了图6所示的8个代表性场景,其中我们的DRAMA模型展示了安全准确的端到端规划结果。在子图(a)和(e)中,我们的规划师准确地发出命令,保持静止,为过街的行人让路,而不考虑是否存在明确的交通灯控制。在子图(a)中,行人在没有红绿灯的弯道过马路,而在子图中(e),行人在有红绿灯和人行横道的情况下过马路。这些场景表明,我们的规划师能够识别交通信号灯和潜在危险,做出安全的规划决策。在子图(b)和(c)中,我们的规划师根据前方车辆的低速发出变道命令。这表明我们的规划师能够生成快速复杂的规划操作,以提高驾驶效率。子图(d)和(f)展示了我们的规划师在低速场景中的熟练程度,特别是在进出停车位方面。这些例子突出了规划师的精确控制和决策能力,确保了平稳高效的停车操作。最后,子图(g)和(h)展示了我们的模型在执行右转和左转时的规划能力。这些例子突出了规划者在精确和安全地处理各种交通场景方面的适应性,展示了其对复杂驾驶操作的全面理解。

51c自动驾驶~合集15_自动驾驶_16

讨论和未来工作

由于NAVSIM排行榜的临时关闭和比较解决方案的可用性有限,我们采用了公共测试数据集来评估基线和我们提出的方法。基线在NAVSIM排行榜上的PDM得分为0.8483;然而,当在公共数据集上进行测试时,它下降到0.8347。我们表现最佳的方法获得了0.8548的PDM得分,这在公共测试数据集上的基线中令人惊讶。所提出的多尺度卷积有助于DRAMA的性能,尽管不影响验证速度,但牺牲了训练效率。

鉴于所提出的多尺度卷积训练速度的降低,我们将探索其他强大而高效的视觉编码器。此外,我们还将考虑在现实场景中测试我们提出的计划器。

结论

这项工作提出了一种名为DRAMA的基于Mamba的端到端运动规划器,这是Mamba在自动驾驶运动规划方面的第一项研究。我们提出的Mamba融合和Mamba Transformer解码器有效地提高了整体规划性能,Mamba Transformers为传统Transformer解码器提供了一种可行的替代方案,特别是在处理长序列时。此外,我们引入的特征状态丢弃提高了规划器的鲁棒性,可以集成到其他基于注意力的模型中,在不增加训练或推理时间的情况下提高性能。我们使用公共规划数据集NAVSIM对DRAMA进行了评估,结果表明,我们的方法在参数少、计算成本低的情况下明显优于基线Transfer。



#InstantSplat
英伟达&厦大等开源训练几秒钟,涨点62%

题目:InstantSplat: Sparse-view SfM-free Gaussian Splatting in Seconds

作者:Zhiwen Fan, Wenyan Cong, Kairun Wen, Kevin Wang, Jian Zhang, Xinghao Ding, Danfei Xu, Boris Ivanovic, Marco Pavone, Georgios Pavlakos, Zhangyang Wang, Yue Wang

机构:德克萨斯大学奥斯汀分校、英伟达研究院、厦门大学、佐治亚理工学院、斯坦福大学和南加州大学

原文链接:https://arxiv.org/html/2403.20309v2

源码链接:https://instantsplat.github.io/

内容速览

  1. 作者介绍了InstantSplat,它提供了一个高效且可靠的框架,用于处理稀疏视图数据
  2. 作者研究了3D-GS的局限性,针对SfM预处理和复杂的ADC的关键问题,InstantSplat将显式的3D-GS与基于学习的MVS的几何先验相结合
  3. 作者的实验在包括MVImgNet、Tanks and Temples、MipNeRF360以及野外互联网数据的多个数据集上进行,实验结果表明作者的方法不仅将优化时间从NoPe-NeRF的33分钟减少到作者的S版本仅需10.4秒,而且在结构相似性指数(SSIM)上实现了62%的改进,并在姿态度量上取得了显著提升。

51c自动驾驶~合集15_自动驾驶_17

图1.新视角合成比较(无结构从运动预处理的稀疏视图)。作者介绍了InstantSplat,一个高效的框架,用于从未加约束的稀疏视图输入中快速合成新视角。该方法结合了从多视图立体(MVS)派生的密集几何先验,基于梯度的联合优化框架能够在几秒钟内重建3D场景并合成新视角,适用于大规模场景。此外,作者的方法显著提高了以前未加约束方法的姿态估计精度和渲染质量。

摘要

在3D计算机视觉领域,从稀疏图像集合中进行新视角合成(NVS)技术已取得显著进展,但其依赖于使用结构从运动(SfM)进行精确的相机参数初始估计。例如,最近开发的高斯溅射技术严重依赖于SfM派生点和姿态的准确性。然而,SfM过程既耗时又经常在稀疏视图场景中不可靠,其中匹配特征稀缺,导致累积误差和跨数据集的有限泛化能力。在本研究中,作者引入了一个新颖高效的框架,以增强从稀疏视图图像的稳健NVS。作者的框架InstantSplat,集成了多视图立体(MVS)预测和基于点的表示,以在几秒内从稀疏视图数据构建大规模场景的3D高斯。

  1. 引言

新视角合成(Novel-view synthesis, NVS)一直是计算机视觉领域长期追求的目标。它涉及到在任意视点渲染在训练期间未见过的图像。然而,以“随意”的方式捕获场景,使用有限的观察视图(称为稀疏视图)和低成本传感器(如智能手机),则更具挑战性。因此,采用一种能直接从少量未校准图像重建3D场景的高效框架对于扩展3D内容创作、数字孪生构建、节能机器人和增强现实应用至关重要。

尽管最近的进步已经显示出在减少所需训练视图数量方面的显著进展,但稀疏视图合成(Sparse-view synthesis, SVS)中的一个重大挑战仍未解决:稀疏输入数据通常缺乏足够的重叠,阻碍了像COLMAP这样的结构从运动(Structure from Motion, SfM)流程估计准确的相机参数。先前在SVS领域的研究通常假设即使在稀疏视图场景中也能精确地获得相机姿态,这是通过利用密集视图进行预计算实现的,但这种假设很少有效。此外,SfM步骤中的累积误差可能传播到后续步骤,导致次优的重建和视图合成。另一系列研究探索了无姿态设置,如NeRFmm、Nope-NeRF和CF3DGS。它们也假设了密集的数据覆盖,通常来源于视频序列。这样的密集数据需要一个广泛的优化过程,通常需要数小时来优化单个3D场景。

最近,3D高斯溅射(3D Gaussian Splatting, 3D-GS)被引入作为一种表达性强且高效的场景表示技术,促进了高速和高保真的训练和渲染。该方法利用一组各向异性的3D高斯,这些高斯在COLMAP派生的点上初始化。优化过程由多视图光度损失驱动,并由自适应密度控制(Adaptive Density Control, ADC)补充,这是一种启发式规则,控制3D原语的创建或删除。然而,由于COLMAP创建的点的数量不同,ADC参数需要针对每个场景进行调整,并且显著影响3D-GS的性能。如表1所示,仅仅降低密集化阈值以促进产生更多的原语就显著提高了“自行车场景”的重建质量。因此,尽管3D-GS在视图合成性能上取得了最先进的成果,但由于视图稀疏性和对COLMAP的依赖,3D-GS仍然存在问题。

51c自动驾驶~合集15_自动驾驶_18

表1.自适应密度控制(ADC)的敏感性分析。3D-GS提出了一种优化策略,其中高斯是从结构从运动(SfM)点云和姿态初始化的。然而,简单地将密集化梯度阈值(一个ADC参数)调整到一半可以显著提高渲染质量(LPIPS: 0.2122 → 0.1666)。通过下采样引入的非均匀分布点(30%),对3D-GS优化提出了重大挑战(LPIPS: 0.2122 → 0.2427)。优化过程对相机姿态的噪声非常敏感,即使是轻微的旋转扰动也会引起问题(LPIPS: 0.2122 → 0.5879)。这激发了作者设计一个更健壮和通用的3D建模流程。

  1. 方法

首先,作者讨论将多视图立体(MVS)与3D高斯溅射(3D-GS)整合到一起的总体流程,以解决依赖于结构从运动(SfM)的稀疏视图重建和训练效率问题(第3.1节)。接着,作者提出一个高效的、感知置信度的点下采样器,用以解决场景过度参数化问题(第3.2节)。作者同样展示一个基于梯度的联合优化框架,该框架依赖于光度损失以自监督的方式对齐高斯和相机参数(第3.3节)。InstantSplat的概览见图2。

51c自动驾驶~合集15_自动驾驶_19

图2.InstantSplat的整体框架。从稀疏、未加姿势的图像开始,作者使用现成的模型生成像素级的多视图立体密集点云,并计算初始相机姿态。作者采用自适应密集表面初始化,使用基于体素的、感知置信度的点下采样器来最小化冗余并实现均匀采样。然后实施了一个简化的无ADC的联合优化过程,以调整高斯和相机参数,确保多视图图像的一致性。所有这些过程都在几秒钟内执行。

3.1 多视图立体与高斯溅射的结合

3D高斯溅射(3D-GS)是一种显式的3D场景表示方法,它使用一组3D高斯来模拟场景。一个3D高斯由均值向量    和协方差矩阵  

51c自动驾驶~合集15_自动驾驶_20

为了表示与视图方向相关的属性,每个高斯附着有球谐系数,并通过对颜色    的计算来渲染,其中    是3D点到相机的距离,   是颜色值。颜色的计算通过球谐基函数    完成,并且颜色  

51c自动驾驶~合集15_自动驾驶_21

其中    是从第    个高斯的球谐系数计算出的颜色,   是通过学习到的每个高斯的不透明度参数乘以2D高斯得到的。2D协方差矩阵是通过将3D协方差矩阵投影到相机坐标系来计算的。3D协方差矩阵被分解为缩放矩阵和旋转矩阵。总结来说,3D-GS使用一组3D高斯    来表示场景,每个3D高斯    的特征由位置   ,一系列球谐系数   ,不透明度   ,旋转    和缩放  

尽管3D-GS在渲染上是高效的,但基于点的3D-GS面临着由于COLMAP的稀疏SfM点或随机初始化的高斯带来的优化问题。SfM在匹配特征稀缺时通常失败,特别是在处理稀疏视图数据时。此外,从COLMAP到GS优化的顺序处理流程缺乏一个纠错机制来解决累积误差,这就需要在GS中仔细选择超参数。例如,自适应密度控制(Adaptive Density Control, ADC)需要一个复杂的策略来确定何时、何地以及如何生成新的高斯,作者在表1中展示了一个例子。

为了解决与自适应密度控制(ADC)相关的敏感性问题,作者寻求一种能够缓解ADC敏感性问题的密集立体点云。然而,传统的立体匹配流程效率较低,并且比SfM过程需要更多的时间。幸运的是,基于深度学习的密集立体框架的发展已经将预测与比例相关的深度图的时间缩短到毫秒级,尽管它们仍然假设已知的相机参数。最近,DUSt3R仅接受两张图像作为输入,并直接生成每个像素的点图和置信度图作为输出。然后可以利用非常高效的后处理优化来解决每视图像素到3D映射和增量相对姿态的问题。具体来说,DUSt3R的训练目标是基于两个输入视图的未投影和归一化的点图的回归:

51c自动驾驶~合集15_自动驾驶_22

其中视图   ,   和    分别是预测值和真实值。为了处理预测值和真实值之间的比例模糊性,DUSt3R通过比例因子    和    归一化预测和真实点图,这些因子简单地表示所有有效点到原点的平均距离,记为   。然后,像素级的置信度  

51c自动驾驶~合集15_自动驾驶_23

其中  

恢复相机参数

作者从像素格到点图的1:1映射中获得,作者可以建立从2D到相机坐标系的映射。作者首先基于Weiszfeld算法解决一个简单的优化问题,以计算每台相机的焦距:

51c自动驾驶~合集15_自动驾驶_24

其中    和    表示中心化的像素索引。假设与COLMAP用于单场景捕获的单相机设置类似,作者提出通过所有训练视图的平均值来稳定估计的焦距: 。结果    表示在后续流程中使用的计算出的焦距。相对变换  

对全局对齐的姿态进行配对

DUSt3R最初以图像对为输入,如果从场景捕获超过两个视图,则需要后处理来对齐比例。根本原因是预测的点图在其自己的标准化尺度内,并且每个独立计算的相对姿态的不对齐导致显著的尺度变化,从而产生不准确的相机姿态。与DUSt3R类似,作者首先为所有N个输入视图构建一个完整的连通图   ,其中顶点    和每条边    表示图像    和    之间的共享视觉内容。为了将最初预测的点图    转换为全局对齐的点图   ,作者更新点图、变换矩阵和比例因子:对于完整的图,任何图像对   ,点图    和置信度图   。为了清晰起见,让作者定义    和   ,   和   。边的变换矩阵    的优化、比例因子    和点图  

51c自动驾驶~合集15_自动驾驶_25

这里,作者稍微滥用了符号,如果   ,则使用    表示   。对于给定的对   ,相同的刚性变换    应该对齐两个点图    和    与世界坐标点图    和   ,因为根据定义    和    都是在相同的坐标框架中表达的。为了避免平凡最优解   ,DUSt3R强制执行  

对齐点云后,作者开始整合过程,通过将每个点作为原语初始化3D高斯。然而,由于像素级预测,密集的立体点云高度过度参数化,伴随着次优的姿态估计。如表4的第一行所示,作者观察到从像素级点图初始化的相机姿态与COLMAP处理所有密集序列时产生的姿态有显著差异。这表明简单的整合会产生次优结果。

3.2 自适应密集表面点初始化

作者的目标是从像素级预测开始减少点的冗余。具体来说,作者提出利用前一步骤中得到的初始场景尺度和置信度图  

自适应体素网格划分

给定    个点,作者动态地将空间划分为    个自适应网格。每个网格,或体素    ,是根据每个维度(  )的场景范围被划分为    个相等的段来定义的,从而产生自适应网格边界。每个点  

51c自动驾驶~合集15_自动驾驶_26

感知置信度的点云下采样

在每个体素    内,对一组点  

51c自动驾驶~合集15_自动驾驶_27

图3.普通下采样前后的可视化。基于预测的置信度图直接下采样会导致缺失块,即使将场景划分为3x3网格。这一结果激发了开发更具适应性的采样策略。

作者首先在每个体素    中随机选择一个点  





对于    到  






其中    是体素中最终返回的点集,   表示欧几里得距离,   是体素  

3.3 联合优化对齐

作者基于采样的点云初始化高斯,采用3D-GS中描述的启发式规则。为了缓解由噪声点云和不准确相机姿态引起的问题,作者引入了一个自校正机制。这个机制通过使用光度损失,适用于相机和高斯参数的梯度优化。

自我监督下的梯度优化

给定多个视图和一个由一组高斯    表示的粗糙3D模型,以及初始相机姿态   ,作者探索使用梯度下降来最小化真实像素和模型渲染之间的残差。具体来说,作者对所有高斯参数和相机参数进行联合优化。这种调整允许    在目标视图位置  

在测试视图上对齐相机姿态

4.实验

4.1 实验设置

数据集

实验遵循先前无姿态方法的实验设置,作者使用了“坦克和庙宇”数据集中的所有八个场景,并使用不同数量的视图。此外,作者还从MVImgNet数据集中提取了七个户外场景,包括轿车、SUV、自行车、椅子、梯子、长凳和桌子等多样化的场景类型。作者还首次尝试在MipNeRF360数据集上进行评估,并使用12个训练视图。作者也在野外数据上测试了InstantSplat,包括从Sora视频中提取的帧、使用NASA网站上的Perseverance漫游者的导航立体相机数据,以及从DL3DV10K数据集中随机抽取的三个训练视图。作者将发布代码和数据。

训练/测试数据集划分

作者从每个数据集中均匀采样24幅图像,用于训练和评估,以覆盖整个数据集。测试图像(12幅,不包括首尾图像)对于所有设置都是均匀选择的,而N个训练图像是从剩余的12幅图像中均匀选择的,用于稀疏视图训练。具体来说,作者从MVImgNet和坦克与庙宇数据集中均匀采样了24幅图像,而MipNeRF360数据集的采样是从前48帧中进行的,因为它是从不同高度捕获的完整360度旋转。作者变化稀疏视图的数量N从3到12,以评估所有采用的算法。

度量标准

作者在基准数据集上评估了两项任务:新视角合成和相机姿态估计。对于新视角合成,作者使用了包括峰值信噪比(PSNR)、结构相似性指数(SSIM)和学习感知图像块相似性(LPIPS)在内的标准评估指标。作者报告了相机旋转和平移误差,重点关注绝对轨迹误差(ATE)和相对姿态误差(RPE)。

基线比较

在无姿态方法上,作者的比较包括Nope-NeRF和CF-3DGS,它们都支持单目深度图和真实相机内参。作者还考虑了NeRFmm,它涉及NeRF和所有相机参数的联合优化。此外,作者将作者的方法与使用COLMAP进行预先计算相机参数的3D-GS和FSGS进行了比较。

实现细节

作者的实现利用了PyTorch框架。对于作者的“粗到细”(Ours-S)方法,优化迭代设置为200次,而对于作者的“特大”(Ours-XL)方法,迭代次数为1000次,以实现质量和训练效率的平衡。作者使用DUSt3R以512的分辨率预测多视图立体深度图。为了公平比较,作者在一块Nvidia A100 GPU上进行实验。

4.2 实验结果

在“坦克和庙宇”数据集上,作者对新视角合成和姿态估计任务进行了定量和定性评估。评估结果总结在表2和图4中。Nope-NeRF利用多层感知器(MLPs)在渲染质量和姿态估计精度方面取得了有希望的结果。然而,它倾向于产生过度模糊的图像(见图4的第三列),这归因于其几何场的严格约束,并显示出对单个场景的长时间训练和推理时间(约3秒每帧)用于渲染一张图像。CF-3DGS采用高斯溅射,并集成了局部和全局优化阶段,具有自适应密度控制和不透明度重置策略,在新视点上渲染时容易出现伪影,这是由于复杂的优化过程加上错误的位姿估计所致,如图4所示。此外,Nope-NeRF和CF-3DGS都假设已知且准确的焦距。NeRFmm,旨在同时优化相机参数和辐射场,由于简单的联合优化固有挑战,倾向于产生次优结果。位姿指标揭示了由于稀疏观测和估计不准确的位姿而产生的伪影,如表2所示。这个问题对于依赖于类似于SLAM的密集视频序列的CF-3DGS和Nope-NeRF特别有害,因此在将密集视频帧采样为稀疏多视图图像时遇到困难。相反,作者的方法以MVS场景结构初始化,并采用基于梯度的联合优化过程,提供了增强的鲁棒性和更优越的性能。在MVImgnet数据集上使用三个训练图像进行的额外实验,以及在MipNeRF360数据集上使用12个训练视图的实验,展示在表3中。值得注意的是,InstantSplat在所有评估的数据集和视觉指标中一致优于所有基线。作者的方法不仅将优化时间从33分钟(NoPe-NeRF)减少到仅10.4秒(Ours-S),而且在结构相似性指数(SSIM)上提高了62%,在位姿指标上也有显著提升。

51c自动驾驶~合集15_自动驾驶_28

表2.在“坦克和庙宇”数据集上的定量评估。作者的方法在渲染更清晰的细节方面(通过LPIPS测量)与其他无姿态方法相比有显著优势,即使优化时间仅为大约10秒(作者的-S),并且没有通常与嘈杂的姿态估计相关的伪影(通过ATE量化)。延长训练时间可以进一步提高渲染质量。为了确保公平比较,作者在与其他无姿态方法相同的视图数量上执行了3D-GS和FSGS使用COLMAP,而COLMAP在只有三个视图可用时失败。InstantSplat在绝对轨迹误差(ATE)方面展示了更好的相机姿态估计精度,使用地面真实尺度进行量化。| ©【计算机视觉life】编译

51c自动驾驶~合集15_自动驾驶_29

图4.InstantSplat与各种无姿态基线方法之间的视觉比较。InstantSplat在只有三个训练图像的情况下,在“坦克和庙宇”数据集和MVImgNet数据集上实现了忠实的3D重建,并渲染了新视角。在最具挑战性的MipNeRF360数据集上,该数据集以不同高度捕获了360度视图——这是以前无姿态文献中未探索过的场景——InstantSplat仍然能够合理地重建场景表示,从而实现新视角的渲染。作者省略了与3D-GS和FSGS的比较,因为它们需要COLMAP来获取SfM姿态,而在这些设置中COLMAP失败了。| ©【计算机视觉life】编译

51c自动驾驶~合集15_自动驾驶_30

表3.在MVImgNet和MipNeRF360数据集上的定量评估。作者的方法在渲染更清晰的细节方面(通过LPIPS测量)与其他无姿态方法相比有显著优势,没有通常与嘈杂的姿态估计相关的伪影(例如CF-3DGS、NeRFmm和NoPe-NeRF)。使用完整视图的COLMAP作为真实参考。作者的方法在绝对轨迹误差(ATE)方面产生了比先前无需COLMAP的方法更准确的相机姿态估计,使用地面真实尺度进行量化。

4.3 消融分析

为了验证作者的设计方案,作者进行了消融实验,从使用不可微分的结构从运动(SfM)辅以具有自适应密度控制的高斯溅射,转变到采用多视图立体(MVS)结合自适应表面点下采样和联合优化,以实现高效和稳健的稀疏视图3D建模。实验在教堂场景上进行,使用来自400个密集视图的COLMAP位姿作为真值,除非另有说明。

  • 问题1: 多视图立体预测的准确性如何?
  • 问题2: 焦距平均的效果如何?
  • 问题3: 自适应密集表面初始化在减少冗余的同时是否保持了重建精度?
  • 问题4: 联合优化对于实现准确渲染是否必要?
  • 问题5: 使用稀疏视图图像的InstantSplat是否能够达到之前使用密集视图配置的方法的渲染质量?

作者评估了从MVS点云图派生的相机位姿的准确性,如第3.1节所详述。正如表4的第一行和第四行所示,MVS初始化的场景几何有相当大的提升空间。

51c自动驾驶~合集15_自动驾驶_31

表4.消融研究,验证设计选择。作者选择XL设置,在1000次迭代中采用,以确保重建质量

从所有图像聚合焦距为优化3D表示提供了稳定的基础,如表4的第二行所示,视图合成质量得到了显著提升。

采用自适应密集表面初始化,使用并行基于网格的最远点采样(FPS),考虑到置信水平,能够有效降低冗余同时保持精度(参见表4的第三行)。作者实验中选择了643个网格。

联合优化,使用粗糙的3D模型和光度误差,可以进一步增强渲染和姿态精度。

  1. 结论

作者介绍了InstantSplat,这是一个旨在在几秒钟内从稀疏视图、无姿态的图像重建场景的框架。作者的方法利用多视图立体(MVS)的能力进行粗糙的场景初始化,并提出了一种基于梯度的自监督联合优化机制,用于高斯属性和相机参数的优化。与之前表现最佳的无姿态方法相比,作者已经将所需的视图数量从数百个减少到仅有几个,从而仅使用最少的图像和无姿态视图实现了大规模3D建模。

然而,InstantSplat受限于MVS对全局对齐点云的需求,在处理超过数百个图像的场景时存在限制。通过渐进式对齐来解决这一局限性将是作者未来工作的一部分。开发板商城 天皓智联 TB上有视觉设备哦 支持AI相关~ 大模型相关也可用