谷歌新作LODGE：大规模3D GS新SOTA！手机都跑得动！

最新推荐文章于 2025-06-10 21:26:52 发布

3Ｄ视觉工坊

最新推荐文章于 2025-06-10 21:26:52 发布

阅读量83

点赞数

文章标签： 3d

原文链接：https://mp.weixin.qq.com/s?__biz=MzU1MjY4MTA1MQ==&mid=2247728994&idx=4&sn=a7fc0880c76d31f898dd08fc57539b96&chksm=faca73bf5abcc5898867d411fd7d1b98ad08e50019471247be0883f29effa393fa0580dab075&scene=126&sessionid=0

版权

点击下方卡片，关注「3DCV」公众号
选择星标，干货第一时间送达

来源：3DCV

「3D视觉从入门到精通」知识星球(点开有惊喜) ！星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：LODGE: Level-of-Detail Large-Scale Gaussian Splatting with Efficient Rendering

作者：Jonas Kulhanek, Marie-Julie Rakotosaona, Fabian Manhardt, Christina Tsalicoglou, Michael Niemeyer, Torsten Sattler, Songyou Peng, Federico Tombari

机构：Google、CTU in Prague、Google DeepMind

原文链接：http://arxiv.org/pdf/2505.23158.pdf

官方主页：https://lodge-gs.github.io/

1. 导读

在这篇文章中，我们提出了一种新的细节层次(LOD)方法用于三维高斯分布，使得在内存受限的设备上实时渲染大规模场景成为可能。我们的方法引入了分层LOD表示，它基于相机距离迭代地选择最优高斯子集，从而大大减少了渲染时间和GPU内存使用。我们通过应用深度感知3D平滑过滤器来构建每个LOD级别，然后进行基于重要性的修剪和微调以保持视觉保真度。为了进一步减少内存开销，我们将场景划分为空间块，并在渲染过程中仅动态加载相关的高斯分布，采用不透明混合机制来避免块边界的视觉伪影。我们的方法在室外(分层3DGS)和室内(Zip-NeRF)数据集上都达到了最先进的性能，提供了高质量的渲染，减少了延迟和内存需求。

2. 效果展示

应用于大型3D场景时，LODGE在保持卓越渲染速度的同时实现了出色的质量。此外，它还支持移动设备的实时渲染。

即使在移动设备上也能高效渲染大规模3DGS，ZipNeRF仅能达到0.09 FPS，而LODGE可以达到257 FPS！

OctreeGS的FPS是119，而LODGE达到了219FPS：

和SOTA方法的定性对比：

3. 引言

新颖视角合成是计算机视觉领域的一个核心研究方向，其应用涵盖增强现实/虚拟现实（AR/VR）、游戏、交互式地图等诸多领域。随着神经辐射场（NeRF）和三维高斯溅射（3DGS）技术的出现，该领域近年来备受关注——后者因支持实时渲染而进一步拓展了应用范围。伴随NeRF和3DGS的普及，将其应用于更大规模复杂场景的趋势日益显著。然而，传统方法在应对此类大规模环境时面临显著的可扩展性挑战，其核心问题在于表征方式：为捕捉精细细节，需要部署海量高斯基元。这导致场景中即便遥远区域也充斥着表示精细几何结构的高斯基元（即对最终渲染图像贡献微乎其微的元素），从而引发严重的渲染效率问题——大量远距离高斯基元虽对视觉效果影响极小或无影响，但仍需参与计算。此外，内存限制构成另一重挑战：GPU无法同时加载全部高斯基元，这对内存资源严重受限的移动端或低端设备尤为棘手。推荐课程：实时400FPS！高精NeRF/Gaussian SLAM定位与建图。

在计算机图形学领域，该问题在基于网格的渲染框架下已得到深入研究，并可通过细节层次（LOD）策略有效解决。这类技术会在物体远离相机时渲染低精度模型，随着相机接近再逐步替换为高精度模型。尽管已有研究尝试将LOD策略引入大规模场景的3DGS，但其主要聚焦于提升渲染速度，而未对GPU内存加载的高斯基元数量进行限制，这在小型设备上仍构成挑战。此类方法需在每帧重新计算待渲染高斯基元子集，额外增加了渲染开销。更关键的是，这种方法要求所有不同LOD层级的高斯基元（其数量甚至超过原生3DGS）始终驻留于GPU内存中。最后，现有LOD方案需针对每个场景进行精细参数调优，才能兼顾质量与性能。

相较之下，本文方法旨在同时提升大规模场景渲染速度并限制内存占用，从而支持嵌入式设备应用。与现有基于LOD的方法类似，我们采用多细节层次的高斯基元集合表征场景。但不同之处在于，我们提出在聚类中心周围定义空间区域，每个区域从预计算的LOD层级中激活固定的高斯基元集合，从而避免帧间重复计算。

4. 主要贡献

我们的贡献可概括为：

• 提出一种新型3DGS细节层次表征方法，与已有方案不同，该方法无需每帧重新计算使用的高斯基元列表，通过加速和压缩处理，甚至可在移动设备上实现大规模场景渲染。

• 设计一种自动选择最优LOD分割参数的策略，而多数现有方法需针对每个三维场景手动调参。

• 为进一步加速渲染，将场景分割为多个区块，并预计算每个区块的激活高斯基元集合。

• 引入新型透明度插值方案，实现视觉连贯的渲染效果，消除区块过渡时的视觉伪影。

实验表明，本文方法在渲染质量和速度上均优于现有最优方案（SOTA），同时显著减少了内存中的高斯基元数量。

5. 方法

本文方法致力于使大规模三维高斯溅射重建甚至在移动设备上也能实现快速渲染。为此，我们提出一种新型细节层次（LOD）表征与基于分块的缓存机制（见图2），在加速渲染的同时降低内存占用。

左侧(LOD):场景用多个LOD表示；在训练期间，根据摄像机距离选择“活跃高斯”。右侧(基于聚类的渲染):我们将相机聚集成块，预先计算每个块的“活跃高斯”，并使用“不透明混合”渲染两个最近的块。

6. 实验结果

7. 总结 & 限制性

我们引入了一种新的细节级别(LOD)方法用于3D高斯分块，即使在内存受限的设备上也能实现大规模场景的实时渲染。我们的方法结合了多级LOD表示与基于块的染，通过为空间区域预先计算活动高斯集来避免逐帧开销。我们还提出了一个自动值选择策略和两个集群不透明度混合方案，以确保块之间的平滑过渡。在室内和室外数据集上的大量实验表明，我们的方法在渲染质量和速度上都优于最先进的基线。重要的是，我们的方法可以在移动设备上部署，实现实时性能，而其他方法则无法实现。

局限性。虽然我们的方法可以在移动设备上实现实时渲染，但它假设加载高斯函数以及在跨越块边界时重新加载它们可以高效地完成。在实践中，这将需要优化的Web服务器和有效的压缩协议，以便实时将高斯函数流式传输到设备上，这留作未来工作。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。