点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0. 论文信息
标题:SparSplat: Fast Multi-View Reconstruction with Generalizable 2D Gaussian Splatting
作者:Shubhendu Jena, Shishir Reddy Vutukur, Adnane Boukhayma
机构:INRIA、TUM
原文链接:https://www.arxiv.org/abs/2505.02175
代码链接:https://shubhendu-jena.github.io/SparSplat/
1. 导读
通过多视图立体重建(MVS)和新视图合成(NVS)从场景中恢复3D信息具有内在的挑战性,尤其是在涉及稀疏视图设置的场景中。3D Gaussian Splatting (3DGS)的出现实现了实时、逼真的NVS。随后,2D高斯Splatting (2DGS)利用透视精确2D高斯图元光栅化来实现渲染过程中的精确几何表示,从而在保持实时性能的同时改善3D场景重建。最近的方法已经解决了稀疏实时NVS的问题,在可推广的、基于MVS的学习框架内使用3dg来回归3D高斯参数。我们的工作通过联合解决可推广的稀疏三维重建和NVS的挑战扩展了这条研究路线,并成功地完成了这两项任务。我们提出了一种基于MVS的学习管道,它以前馈方式回归2DGS表面元素参数,以从稀疏视图图像执行3D形状重建和NVS。我们进一步表明,我们的概化管道可以受益于预先存在的基本多视图深度视觉特征。所得到的模型在DTU稀疏3D重建基准上,在倒角距离到地面事实方面达到了最先进的结果,以及最先进的NVS。它还在BlendedMVS和Tanks和Temples数据集上展示了很强的泛化能力。我们注意到,在基于隐式表示的体绘制的前馈稀疏视图重建中,我们的模型优于现有技术,同时提供了几乎2个数量级的高推理速度。
2. 效果展示
DTU数据集稀疏重建的可视化比较。

BlendedMVS数据集上表面重建结果的可视化比较

DTU数据集上新视点合成结果的可视化比较

3. 引言
从稀疏图像输入重建三维场景仍是计算机视觉领域的重大挑战,其应用涵盖机器人技术、自动驾驶系统和增强/虚拟现实等领域。传统的基于深度多视图立体(MVS)的方法(如MVSNet)通过在相机视锥内构建三维代价体来估计深度图,为此任务奠定了基础。后续改进方法提升了深度估计精度。然而,这些方法通常需要大量后处理(如深度图滤波),且在低纹理区域、噪声敏感性和数据缺失(尤其是稀疏视图场景)方面存在困难。此外,它们无法直接实现独立的新视角合成(NVS)。
神经隐式表示技术作为强有力的替代方案崭露头角,通过神经符号距离函数(SDF)隐式表示表面,实现了高保真度三维重建。体积渲染技术的进展通过直接优化多视图图像的场景几何与辐射度,实现了更平滑精细的重建。最近,三维高斯溅射(3DGS)引入高斯基元,实现了快速实时照片级新视角合成。尽管该方法取得显著改进,但从这些基元中提取连续三维表面仍具挑战性。已有解决方案尝试改进表面提取,例如SuGaR通过后处理增强表面对齐,而二维高斯溅射(2DGS)则通过调整基元表示和优化渲染算法提升了重建精度。
尽管取得这些进展,但多数现有方法(特别是针对特定场景的测试时优化方法)仍面临诸多限制,包括高计算需求、大量输入视图要求以及跨场景泛化能力不足。为解决这些问题,泛化型三维重建与新视角合成模型旨在利用图像特征,通过在大规模数据集上训练的前馈网络预测辐射度和符号距离场。然而,作为基于体积渲染的方法,其推理速度显著较慢。近期研究提出了无需优化的前馈高斯溅射模型,这些模型利用像素对齐的三维高斯基元,通过基于瓦片的光栅化和GPU快速排序算法,实现了从稀疏视图的快速新视角合成。此类方法即使在有限图像数据下也能实现跨场景泛化,但其面向新视角合成的三维表示形式不适合前馈表面重建。
在此背景下,我们发现用于新视角合成的最先进泛化高斯溅射方法在渲染深度图的TSDF融合过程中无法生成连贯重建结果。
本文针对从稀疏输入视图实现快速多视图形状重建的问题展开研究。为此,我们构建了一种泛化型前馈模型,该模型回归二维高斯溅射参数(而非三维基元),使重建速度显著快于依赖隐式体积渲染的现有泛化三维重建方法。受MVSFormer++启发(其利用二维基础模型DINOv2进行特征编码,并通过跨视图注意力增强代价体正则化以实现先进的多视图立体匹配),我们扩展了MVSGaussian框架,利用从二维/三维基础模型提取的单目或多视图特征,完成三维重建与新视角合成任务。本研究探索了来自DINOv2的丰富二维语义特征,以及来自MASt3R的密集成对特征图(编码输入图像间的密集成对对应关系)在预测二维高斯溅射参数中的作用,并在稀疏视图设置下,在三维重建和新视角合成任务中均取得了最先进结果。
4. 主要贡献
本文贡献如下:
• 提出首个基于二维高斯溅射的泛化前馈方法,实现稀疏视图的新视角合成与三维重建;推荐课程:为什么说colmap仍然是三维重建的核心?
• 受MVSFormer++启发(其利用DinoV2进行特征编码与代价体正则化),我们研究了融合DinoV2的二维语义单目特征与MASt3R的密集成对对应特征对预测二维高斯溅射参数的影响;
• 在DTU数据集上进行了广泛实验与消融研究,证明基于MASt3R特征的方法在三维重建、新视角合成及快速推理方面均取得最先进性能。
5. 方法
我们提出了第一个基于多视角图像的广义前馈2DGS预测模型。它在稀疏DTU 3D重建基准中实现了最先进的性能,与基于隐式表示的体绘制的竞争相比,推断速度快了几个数量级。多视图输入深度特征被单应变形到目标视图中。双重网络执行深度多视图立体和像素对齐的2D表面元素属性回归。这些表面元素的透视精确高斯分布使得实时新视图合成和网格提取成为可能。

6. 实验结果

7. 总结
我们提出了第一个可推广的2D高斯溅射方法,可以实现快速的多视角重建,与隐式可推广的SOTA方法相比,加速接近2个数量级。我们的方法受益于从现有的2D和3D基础模型中提取的深度特征输入,即来自DinoV2的单目语义特征。我们在DTU数据集上也取得了最先进的成果,包括新颖视图合成和3D重建中,对BlendedMVs数据集具有强大的泛化能力,并在更具挑战性的TanksandTemples数据集上取得了有希望的结果。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。


3D视觉硬件

3D视觉学习圈子
「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

3D视觉全栈学习课程:www.3dcver.com

3D视觉交流群成立啦

一键三连「分享」、「点赞」和「在看」
3D视觉科技前沿进展日日相见 ~