远超所有SOTA！ETH最新4DGF：3DGS和NerF的还能这么结合？速度还能加速200倍！

最新推荐文章于 2024-08-17 23:23:27 发布

自动驾驶之心

最新推荐文章于 2024-08-17 23:23:27 发布

阅读量249

点赞数

文章标签： 3d

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247613083&idx=1&sn=9d44e3592996367857004b8e7a6a6054&chksm=cf0e94c3dbe6db386e60c15e65497f3211105c0b0497041bf6ed5f743cc7ac6580a3fd4163b2&scene=126&sessionid=0

版权

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享ETH在三维重建上的最新工作—4DGF！PSNR超过所有SOTA，并在渲染速度方面加速了200倍。如果您有相关工作需要分享，请在文末联系我们！

也欢迎添加小助理微信AIDriver004，加入我们的技术交流群

>>点击进入→自动驾驶之心『BEV感知』技术交流群

编辑 | 自动驾驶之心

写在前面&笔者的个人理解

本文提出了一种用于大规模动态城市区域的新型视图合成（NVS）的高效神经3D场景表示。现有工作由于其有限的视觉质量和非交互式渲染速度，不太适合混合现实或闭环模拟等应用。最近，基于光栅化的方法已经以令人印象深刻的速度实现了高质量的NVS。然而，这些方法仅限于小规模、同质的数据，即它们不能处理由于天气、季节和照明而引起的严重外观和几何变化，也不能扩展到具有数千张图像的更大的动态区域。我们提出了4DGF，这是一种神经场景表示，可扩展到大规模动态城市区域，处理异构输入数据，并显著提高渲染速度。我们使用3D高斯作为有效的几何支架，同时依赖神经场作为紧凑灵活的外观模型。我们在全局范围内通过场景图集成场景动力学，同时通过变形在局部范围内建模关节运动。这种分解方法实现了适用于真实世界应用程序的灵活场景合成。在实验中，我们在PSNR方面超过了现有SOTA，在渲染速度方面加速了200倍。

开源链接：https://tobiasfshr.github.io/pub/4dgf/

总结来说，本文的主要贡献如下：

我们介绍了4DGF，这是一种用于动态城市区域的混合神经场景表示，它利用3D高斯作为有效的几何支架，利用神经场作为紧凑灵活的外观表示。
我们使用神经场将特定于场景的瞬态几何和外观纳入3D高斯飞溅的渲染过程，克服了其对静态、同质数据源的限制，同时受益于其高效渲染。
我们通过i）基于图的表示来集成场景动力学，将动态目标映射到规范空间，以及ii）在此规范空间中建模非刚性变形。这使得能够从野外捕获中有效地重建动态目标。

方法详解

表示

我们对参数化的全光函数fθ进行建模，该函数取决于以下组件：i）场景图G，其提供每个序列s、目标o和时间t的场景配置和潜在条件信号ω，ii）用作场景和目标的几何支架的3D高斯集，以及iii）隐式神经场，其根据条件信号对外观进行建模并调制几何支架。有关我们的方法的概述，请参见图2。

场景配置：在[17]的启发下，我们用图形表示G=（V，E）分解场景，在节点V处保持潜在的条件信号，并沿边E进行坐标系变换。节点V由定义全局坐标系的根节点vr、相机节点组成{vc}c∈C，并且对于每个序列s∈S，序列节点{vst}t∈Ts与动态目标节点{vo}o∈Os。我们将潜在向量ω与表示局部外观和几何体的序列和目标节点相关联。具体来说，我们通过：

时间t通过最大序列长度归一化为[-1，1]。对于目标，我们同时使用目标代码和时间编码：

图G中的节点由定向边连接，该定向边定义了节点的规范框架之间的刚性变换。我们对序列到根边有Pts，对相机到序列边有Pc，对目标到序列边也有ξ。

3D Gaussians：我们用一组各向异性的3D高斯基元来表示场景几何体。每个3D高斯基元gk通过其平均值μk、协方差矩阵∑k和基本不透明度αk来参数化。协方差矩阵被分解为表示为单位四元数qk的旋转矩阵和缩放向量ak。gk的几何形状表示为：

常见的场景几何支架是用一组3D高斯Gr建模的，而我们对每个动态目标o都有一组单独的3D高斯Go。事实上，场景几何在序列中基本一致，而目标几何是不同的。三维高斯Gr在世界坐标系中表示，而每组Go在以目标为中心的规范坐标系中表达，该坐标系可以通过遍历G映射到世界坐标系。

与[18]不同的是，我们的3D高斯不包含任何外观信息，将表示的内存占用减少了80%以上。相反，我们利用神经网络来回归每个序列和时间的颜色信息和更新的不透明度。对于Gr中的3D高斯建模场景脚手架，我们预测了一个不透明度衰减项，该项用于通过缩小αk来建模瞬态几何。相反，对于Go中的3D Gaussians建模目标，基本不透明度保持不变。因此：

ADC中的修剪决策是通过对基本不透明度αk取阈值来获得的，这是可以直接访问没有计算开销。

最后，在存在非刚性目标o的情况下，我们通过神经网络预测变形项到Go中3D基元的位置，对于每个时间t。在这种情况下，基元的最终位置由：

外观和瞬态几何形状：

给定场景图G和3D高斯图G，我们使用两个有效的神经场来解码每个基元的外观参数。对于Gr中的3D高斯静态场景建模，神经场用φ表示，并回归不透明度衰减项和颜色，给定3D高斯基元的位置μk、观看方向d、基本不透明度αk和节点的潜在编码:

对于Go建模动态目标的3D高斯，神经场由ψ表示，并回归颜色。除了基元的位置和观察方向外，我们还将ψ设为潜在向量，并对局部目标纹理和全局序列外观（如照明）进行建模。这里，序列s是o所属的序列，即满足o和t。因此，Go中3D高斯的颜色由下式给出：

对于我们的目的，使用神经场有三个关键优势。首先，通过在所有3D高斯G中共享φ和ψ的参数，当扩展到大规模城市区域时，我们实现了比[18]中更紧凑的表示。其次，它允许我们对依赖序列的外观和瞬态几何进行建模，这是从异构数据中学习场景表示的基础。第三，节点之间的信息共享实现了序列和目标外观的交互。

非刚性目标。街景不仅被刚性移动的车辆占据，还被以非刚性方式移动的行人和骑自行车的人占据。由于它们在有限的视觉覆盖范围内不受约束地运动，因此构成了重大挑战。因此，我们采用分解方法对非刚性目标进行建模，该方法使用场景图G对全局刚性目标运动进行建模，同时使用变形头χ对局部关节运动进行建模。变形头通过预测局部位置偏移：

背景建模。为了实现对远处物体和天空的真实渲染，有一个背景模型是很重要的。受[54]的启发，在场景边界外，沿射线以越来越大的距离对点进行采样，我们将3D高斯放置在场景周围的球体上，半径为r2i+1，其中i∈{1,2,3}，其中r是场景边界直径的一半。为了避免前景场景几何的模糊性并提高效率，我们移除i）地平面以下、ii）被前景场景点遮挡或iii）任何训练视图的视锥台之外的所有点。为了在每个球体上均匀分布点，我们使用Fibonacci球体采样算法，该算法使用基于黄金比例的公式将点排列成螺旋图案。即使这种采样不是最优的，它也可以作为最优采样的更快近似值。

Composition and Rendering

场景组合。为了在序列s中的时间t从相机c的角度呈现我们的表示，我们遍历图G以获得每个可见目标o∈Os的潜在向量ωst和潜在向量ωot，即t∈To。此外，对于G中的每个3D高斯基元gk，我们使用收集的相机参数、目标比例和姿态信息来确定从基元的参考系（例如Gr的世界、Go的目标空间）到相机c的图像空间的变换πck映射点。不透明性αs，t根据方程（4）计算，而颜色cs，t通过方程（6）和（7）。

光栅化。为了从相机c渲染场景，我们遵循[18]并将3D高斯图泼洒到图像平面。实际上，对于每个基元，我们计算由gck表示的2D高斯核，平均μck由基元的位置到图像平面的投影给出，即具有协方差。最后，我们应用3D高斯的传统阿尔法合成来渲染相机c的像素p：

Optimization

整体损失函数如下：

位姿优化。除了优化场景测量之外，在野外场景中细化重建的姿态参数至关重要，因为所提供的姿态通常具有有限的精度。

自适应密度控制。为了促进3D高斯基元的生长和修剪，参数θ的优化通过ADC机制交错。这种机制对于实现照片真实感渲染至关重要。然而，它并不是为在数万张图像上进行训练而设计的，因此我们开发了一种流线型的多GPU变体。首先，跨流程积累统计数据至关重要。然后，我们不在GPU 0上运行ADC并同步结果，而是只同步ADC的不确定性部分，即从正在分割的3D高斯图中提取的随机样本。这些通常比3D高斯的总数少得多，从而避免了通信开销。接下来，将3D高斯参数替换为其更新的副本。然而，这将损害梯度的同步，因为在PyTorch DDP中，参数在模型初始化时只注册一次。因此，我们在[79]中提供的低级API中完成ADC机制后，重新初始化Reducer。

此外，城市街景对ADC提出了一些独特的挑战，例如规模的巨大变化，例如附近汽车与远处建筑和天空的极端特写。由于密度不足，这可能导致特写效果模糊。我们通过使用最大2D屏幕大小作为分割标准来解决这一问题。1此外，ADC考虑3D高斯的世界空间尺度ak来修剪大的基元，这会伤害远离相机的背景区域。因此，我们首先测试3D高斯是否在场景边界内，然后根据ak对其进行修剪。最后，当三维高斯基元的生长不受约束时，城市区域的规模会导致记忆问题。因此，我们引入了一个阈值，在保持修剪的同时限制原始生长。

实验结果

结论

我们提出了4DGF，一种动态城市区域的神经场景表示。4DGF利用3D高斯作为高效的几何支架和紧凑但灵活的神经场对高度动态的大规模城市区域进行建模，这些神经场在捕捉过程中对大的外观和几何变化进行建模。我们使用场景图对动态目标运动进行建模，并在任意配置和条件下灵活地组合表示。我们共同优化了3D高斯、神经场和场景图，显示了最先进的视图合成质量和交互式渲染速度。

局限性：虽然4DGF改进了动态城市区域的新颖视图合成，但该问题的挑战性为进一步探索留下了空间。尽管我们对场景动力学、外观和几何体变化进行建模，但其他因素会影响真实世界捕捉中的图像渲染。首先，野外拍摄往往表现出由物理图像形成过程引起的失真。因此，对滚动快门、白平衡、运动和散焦模糊以及色差等现象进行建模是避免重建伪影所必需的。其次，[18]中针孔相机模型的假设在我们的工作中仍然存在，因此我们的方法无法对更复杂的相机模型进行建模，如矩形相机，这对于某些拍摄设置来说可能是次优的。

更广泛的影响。我们希望我们的工作通过改进底层技术，对机器人模拟和混合现实等现实世界的用例产生积极影响。虽然我们不希望恶意使用我们的方法，但我们注意到，不准确的模拟，即我们的系统故障，可能会影响机器人系统的性能，进一步影响现实世界的部署。

参考

[1] Dynamic 3D Gaussian Fields for Urban Areas

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向，目前近60+技术交流群，欢迎加入！扫码添加汽车人助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）

④【自动驾驶之心】全平台矩阵

自动驾驶之心

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
远超所有SOTA！ETH最新4DGF：3DGS和NerF的还能这么结合？速度还能加速200倍！

点击下方卡片，关注“自动驾驶之心”公众号戳我->领取自动驾驶近15个方向学习路线今天自动驾驶之心为大家分享ETH在三维重建上的最新工作—4DGF！PSNR超过所有SOTA，并在渲染速度方面加速了200倍。如果您有相关工作需要分享，请在文末联系我们！也欢迎添加小助理微信AIDriver004，加入我们的技术交流群>>点击进入→自动驾驶之心『BEV感知』技术交流群编辑 | 自动驾驶...
复制链接

扫一扫