摘要
摘要总结
3D高斯绘制(3DGS)的挑战:尽管3DGS在辐射场重建方面取得了突破,但在大规模和复杂场景中,由于其无序性,准确表示场景表面仍然是一个难题。
CityGaussianV2的提出:本文提出了CityGaussianV2,这是一个针对大规模场景重建的新方法,旨在解决几何精度和效率的关键问题。
基于2DGS的方法:CityGaussianV2基于2DGS,解决了其在收敛速度和可扩展性方面的限制。
技术亮点:
- 分解梯度的密集化和深度回归技术(decomposed-gradient-based densification and depth regression technique):用于消除模糊伪影并加速2DGS的收敛。
- 伸长滤波器:用于解决2DGS退化导致的高斯计数爆炸问题。
- 并行训练优化:通过优化CityGaussian管道,实现了存储压缩,减少了训练时间和内存使用,节省了至少25%的训练时间和50%的内存。
实验结果:
实验表明,CityGaussianV2在视觉质量、几何精度以及存储和训练成本之间取得了良好的平衡,证明了其在大规模场景重建中的有效性和实用性。
1 引言 (Introduction)
- 3D场景重建的重要性:引言部分首先强调了3D场景重建的重要性,以及其在照片级真实感渲染和几何重建上的追求。
- 3DGS的优势与局限性:介绍了3DGS作为主导技术的优势,尤其是在训练收敛和渲染效率方面,同时也指出了其在大规模场景中的局限性,特别是在表面表示和下游应用中。
- 现有方法的挑战:讨论了现有方法在可扩展性和泛化能力方面的挑战,特别是在处理大规模和复杂场景时的问题,如内存需求大、容量限制、高斯模糊和评估协议的不稳定性。
(大规模场景的重建往往还意味着显著的训练开销,要重建1.97km²的区域会产生接近两千万的高斯点,这意味着4.6G的存储以及31.5G的显存开销,以及超过三小时的训练时长)
- 并行训练和压缩的必要性:强调了实现高效并行训练和压缩的重要性,以及现有方法在训练成本和渲染速度方面的不足。
- CityGaussianV2的提出:介绍了CityGaussianV2,这是一种新的大规模场景重建方法,它通过采用2DGS作为原语,并结合深度回归和DGD策略来加速重建,同时引入伸长滤波器和并行训练来解决可扩展性问题,并通过向量树量化减少存储需求。
- 评估协议的改进:提出了一种新的评估协议,通过TnT风格的协议和基于可见性的裁剪体积估计策略,以实现对模型性能的稳定和一致评估。
In summary, our contributions are four-fold:
优化策略:提出了一个新的优化策略,专门针对大规模场景下的2DGS,以加快其收敛速度,并提高其处理大规模数据的能力。
并行训练流程:开发了一个高度优化的并行训练流程,不仅减少了训练和存储的成本,还确保了实时渲染的性能。
评估协议:建立了一个新的评估协议,适用于大型无界场景,为大规模场景重建提供了一个几何基准。
高斯辐射场的应用:CityGaussianV2是首批在大规模表面重建中应用高斯辐射场的方法之一,实验结果证明了其在几何质量和效率方面达到了最先进的水平。
2.相关工作 (Related Works)
2.1 新视图合成 (Novel View Synthesis)
-
NeRF技术:NeRF通过MLPs隐式建模场景,是新视角合成的开创性工作。
-
MipNeRF改进:MipNeRF通过引入抗锯齿技术,减少了渲染过程中的混叠伪影。
-
深度监督:利用点云的深度信息加速NeRF模型的收敛,提高训练效率。
-
数据结构优化:InstantNGP通过简化数据结构(如八叉树)提升NeRF的训练和渲染速度。
-
3D Gaussian Splatting (3DGS):3DGS克服了NeRF在训练效率和渲染速度上的局限,是新视角合成的一个重要进步。
-
3DGS的优化:后续工作在抗锯齿、存储成本和高纹理区域欠拟合方面对3DGS进行了改进。
2.2 高斯表面重建 (Surface Reconstruction with Gaussians)
-
表面提取技术的发展:为了从无序且离散的3D高斯绘制(3DGS)中提取精确表面,已开发了多种算法,旨在提取明确的表面并规范化平滑度和异常值。
-
预训练与优化方法:SuGaR预训练3DGS并与提取的网格结合进行微调,使用泊松重建算法快速提取网格。GSDF和NeuSG则优化3DGS与有符号距离函数以生成精确表面。
-
2DGS与GaussianSurfels:2DGS和GaussianSurfels通过折叠3D高斯原语的一个维度来避免模糊的深度估计,并确保表面平滑。
-
TrimGS与GS2Mesh:TrimGS提供了新的每个高斯贡献定义来去除不准确的几何结构。GS2Mesh作为一种后处理技术,直接从3DGS导出网格。
-
GOF与RaDeGS:GOF专注于无界场景,利用基于光线追踪的体积渲染和行进四面体算法提取网格。RaDeGS新定义了光线与高斯的交点,并导出曲面和深度分布。
-
扩展挑战:这些算法在小场景或单个对象上取得了成功,但在扩展到大规模场景时,面临性能下降、密集化稳定性和训练成本等挑战,这些挑战尚未被充分探索。
2.3 大规模场景重建 (Large-Scale Scene Reconstruction)
-
3D重建技术的发展:过去几十年中,从大型图像集合中进行3D重建的技术取得了显著进展。现代算法主要基于NeRF技术,尽管训练和渲染时间较长,但NeRF及其变体在3D场景重建和新视角合成中发挥了关键作用 。