中科院最新CityGaussian：VR/AR时代的城市重建新标杆

最新推荐文章于 2025-03-21 15:25:03 发布

3Ｄ视觉工坊

最新推荐文章于 2025-03-21 15:25:03 发布

阅读量1.4k

点赞数

文章标签： vr ar

原文链接：https://mp.weixin.qq.com/s?__biz=MzU1MjY4MTA1MQ==&mid=2247682251&idx=1&sn=48997b01d6f11750c3aa22d7e2b4efa9&chksm=fafbacf867775d1580deebb9642485f5d08bc4b06208cc921af4546770525cebb8cbfed3f130&scene=126&sessionid=0

版权

本次分享我们邀请到了中国科学院自动化所模式识别实验室博士生刘洋，为大家详细介绍他们的工作：

CityGaussian: Real-time High-quality Large-Scale Scene Rendering with Gaussians

项目主页：https://dekuliutesla.github.io/citygs/

直播信息

时间

2024年5月18日（周六）晚上20：00

主题

CityGaussian：VR/AR时代的城市重建新标杆

直播平台

3D视觉工坊哔哩哔哩

扫码观看直播，或前往B站搜索3D视觉工坊观看直播

嘉宾介绍

刘洋

中国科学院自动化所模式识别实验室博士生，此前曾在图森未来实习。研究方向为3D场景重建和3D环境感知。曾获国家奖学金，省级优秀毕业生等。

直播大纲

三维重建问题与算法回顾
大场景重建相关论文和SOTA方法简介
目前领先算法CityGaussian论文讲解

参与方式

Demo展示(MatrixCity)

这篇文章干了啥？

我们提出了CityGaussian，能够基于无人机航拍数据对小至建筑物，大至2.5平方千米的城市进行逼真的三维重建。同时，基于我们所提出的LoD（Level of Detail）技术，我们能够实现在重建出的城市中以1080P以上的高清分辨率进行实时游览，这将给地图场景预览、VR及AR带来全新的使用体验。我们的方法在包括MatrxiCity、Mill19等多个具有挑战性的场景下进行了测试和评估，结果表明我们的方法在渲染质量以及实时性上显著优于已有的重建算法。

主要贡献

在本文中，我们提出了CityGaussian算法，它基于3D Gaussian Splatting（3DGS）技术，针对大规模场景的重建提出了一种高效的并行训练算法以及快速的多细节层次（LoD）渲染算法。传统的基于神经辐射场（NeRF）的隐式表征算法在大规模场景下细节还原度较低，训练以及渲染速度慢，严重影响了重建场景中的游览体验。而新近提出的显式表征算法3D Gaussian Splatting（3DGS）以其可编辑性以及高效渲染为场景重建带来了新的可能。然而，以显式的3DGS表征大规模场景往往意味着产生数以百万计的高斯点，这不仅导致训练时的显存溢出，也大大拖慢了渲染速度，特别是在希望以大的视野范围俯瞰城市的情况下。

为了解决这些问题，我们一方面提出了一种高效的分块并行训练框架，依据空间分布将高斯点切分为不同的子块，并自适应地为每个子块分配所需的训练数据。每个子块能够以低得多的训练开销在不同GPU上并行训练，训练完成后也能够以简单的策略融合为整个场景的统一3D表征。另一方面，针对训练好的大规模3DGS表征，我们使用不同压缩率来得到不同细节层次的场景表征。在实际渲染时，我们对近距离的场景使用精细的细节层次，而远距离的区域则使用较为粗糙的细节层次，从而大大减少渲染时实际所需的高斯点数量，并极大降低大场景下的渲染延迟。

本文的主要贡献包括：

我们基于分而治之思想提出了一种高效的大规模3DGS表征并行训练策略
借助所提出的LoD策略，我们在不同的视距范围内都达到了实时的大场景渲染速度
我们所提出的CityGaussian算法在公开的数据集上达到了领先现有算法的渲染速度与速度表现

方法总览

训练阶段：训练阶段的流程如下图所示。我们首先训练一个体量较小、渲染质量较为粗糙的3DGS表征作为对场景的先验。以此为基础，我们在压缩后的坐标空间将高斯点划分为一系列互不重叠的区块。每个区块则根据其与训练样本的投影关系和空间坐标关系决定分配哪些数据用于训练。每个子块随后可以并行训练，并行训练的结果在融合后即可得到整个场景的3DGS表征

渲染阶段：渲染阶段的流程如下图所示。首先我们借助LightGaussian对训练结果进行压缩，不同压缩率分别对应不同的细节层次。实际渲染时，我们以训练阶段划分的区块为单位，快速判断哪些区块处在视锥范围内，以及区块离相机中心的距离。离相机中心越近的区块，算法会使用细节更丰富的、压缩率更低的GS点进行表征，从而减少渲染所需使用GS点数量，提高实时性。

实验结果

可视化的渲染效果比较如下图所示，可以看到无论在实际采集的无人机数据还是仿真环境下采集的数据上，我们的算法都能显著地改善渲染质量，提高细节的还原程度，带来更加逼真的游览体验。

此外，我们也在MatrixCity这一大规模数据集上对LoD的有效性进行了验证。从Table 2中可以看到，我们引入的LoD技术在保证逼真的渲染效果的同时，将渲染速度从21.6FPS提高到53.7FPS，并很好地平衡了渲染质量和实时性。Figure 6则展现了相机从不同高度俯瞰重建出的城市时的速度变化关系。可以看到，即便在最坏情况下，我们的LoD算法也能保持在25FPS以上的渲染速度，保证了不同视角范围的丝滑切换。