远超所有SOTA!ETH最新4DGF:3DGS和NerF的还能这么结合?速度还能加速200倍!

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享ETH在三维重建上的最新工作—4DGF!PSNR超过所有SOTA,并在渲染速度方面加速了200倍。如果您有相关工作需要分享,请在文末联系我们!

也欢迎添加小助理微信AIDriver004,加入我们的技术交流群

>>点击进入→自动驾驶之心BEV感知技术交流群

编辑 | 自动驾驶之心

写在前面&笔者的个人理解

本文提出了一种用于大规模动态城市区域的新型视图合成(NVS)的高效神经3D场景表示。现有工作由于其有限的视觉质量和非交互式渲染速度,不太适合混合现实或闭环模拟等应用。最近,基于光栅化的方法已经以令人印象深刻的速度实现了高质量的NVS。然而,这些方法仅限于小规模、同质的数据,即它们不能处理由于天气、季节和照明而引起的严重外观和几何变化,也不能扩展到具有数千张图像的更大的动态区域。我们提出了4DGF,这是一种神经场景表示,可扩展到大规模动态城市区域,处理异构输入数据,并显著提高渲染速度。我们使用3D高斯作为有效的几何支架,同时依赖神经场作为紧凑灵活的外观模型。我们在全局范围内通过场景图集成场景动力学,同时通过变形在局部范围内建模关节运动。这种分解方法实现了适用于真实世界应用程序的灵活场景合成。在实验中,我们在PSNR方面超过了现有SOTA,在渲染速度方面加速了200倍。

开源链接:https://tobiasfshr.github.io/pub/4dgf/

106a02286522dac0655e9036e537041f.png

总结来说,本文的主要贡献如下:

  • 我们介绍了4DGF,这是一种用于动态城市区域的混合神经场景表示,它利用3D高斯作为有效的几何支架,利用神经场作为紧凑灵活的外观表示。

  • 我们使用神经场将特定于场景的瞬态几何和外观纳入3D高斯飞溅的渲染过程,克服了其对静态、同质数据源的限制,同时受益于其高效渲染。

  • 我们通过i)基于图的表示来集成场景动力学,将动态目标映射到规范空间,以及ii)在此规范空间中建模非刚性变形。这使得能够从野外捕获中有效地重建动态目标。

相关工作回顾

动态场景表示:场景表示是计算机和图形研究的支柱。几十年来,研究人员研究了多种条件下的各种静态和动态场景表示。最近,神经渲染为真实图像合成提供了一类新的场景表示。虽然这一范围内的早期方法仅限于静态场景,但动态场景表示很快就出现了。这些场景表示可以大致分为隐式表示和显式表示。隐式表示将场景编码为建模为神经网络的参数函数,而显式表示使用低级基元的集合。在这两种情况下,场景动力学都被模拟为i)规范体积的变形,ii)粒子级运动(如场景流),或iii)局部几何图元的刚性变换。相反,传统的计算机图形学文献使用场景图将实体组成复杂的场景。因此,另一个研究领域探索将场景分解为更高层次的元素,其中实体及其空间关系表示为有向图。最近对这一概念进行了重新审视,以进行观点综合。在这项工作中,我们采用了一种混合方法,该方法使用i)显式几何基元进行快速渲染,ii)隐式神经场对外观和几何变化进行建模,以及iii)场景图分解单个动态和静态组件。

高效渲染和3D高斯飞溅:就准确度而言,因此,速度的变化也同样重要。虽然渲染速度在很大程度上取决于表示效率本身,但它也随着与之耦合以生成图像的渲染形式而变化。传统上,神经辐射场使用隐式函数和体积渲染,这会产生准确的渲染,但会受到昂贵的函数评估和光线遍历的影响。为了解决这些问题,已经开发了许多用于缓存和高效采样的技术。然而,这些方法经常受到过多GPU内存需求的影响,并且在渲染速度上仍然受到限制。因此,研究人员选择利用更高效的渲染形式,将神经场景表示嵌入到网格中,以实现高效的光栅化。这一研究领域最近被3D高斯飞溅所占据,其i)将场景表示为一组各向异性的3D高斯基元,ii)使用高效的基于tile的可微分光栅化器,以及iii)通过自适应密度控制(ADC)实现有效优化,这有助于基元的生长和修剪。这导致了从烘焙神经场景表示到更精简的方法的范式转变。

然而,Kerbl等人表现出明显的局限性,这引发了一个非常活跃的研究领域,有许多同时进行的工作。例如,有几部作品通过改编上面一段中描述的方法来处理动态场景。另一个工作重点是对更大规模的场景进行建模。这些方法通常仅限于同质数据和规模。相比之下,我们的方法可以扩展到数万张图像,并从异构数据中有效地重建大型动态城市区域,同时提供比传统方法快几个数量级的渲染。

重建城市地区:由于场景和成像过程的复杂性,动态城市建筑尤其需要进行重建。因此,重要的研究工作集中在将视图合成方法从受控的小规模环境调整到更大的真实世界场景上。特别是,研究人员研究了激光雷达深度先验的使用,提供了额外的信息,如相机曝光,联合优化相机参数,并开发了专门的天空和光线建模方法。然而,由于场景动力学方法具有挑战性,许多工作只是简单地去除动态区域,仅提供部分重建。很少有作品明确地对场景动力学进行建模,因此这些作品有明显的局限性:它们不能扩展到单个短视频剪辑之外,难以准确地表示动态目标,或者渲染成本高昂。相反,我们提出了一种快速、可扩展的方法,它忠实地表示场景动力学。

方法详解

23a6bed9e9a5edefd997901bcb474da5.png

表示

我们对参数化的全光函数fθ进行建模,该函数取决于以下组件:i)场景图G,其提供每个序列s、目标o和时间t的场景配置和潜在条件信号ω,ii)用作场景和目标的几何支架的3D高斯集,以及iii)隐式神经场,其根据条件信号对外观进行建模并调制几何支架。有关我们的方法的概述,请参见图2。

场景配置:在[17]的启发下,我们用图形表示G=(V,E)分解场景,在节点V处保持潜在的条件信号,并沿边E进行坐标系变换。节点V由定义全局坐标系的根节点vr、相机节点组成{vc}c∈C,并且对于每个序列s∈S,序列节点{vst}t∈Ts与动态目标节点{vo}o∈Os。我们将潜在向量ω与表示局部外观和几何体的序列和目标节点相关联。具体来说,我们通过:

0c3b122e8394258ad82a13fb62950f65.png

时间t通过最大序列长度归一化为[-1,1]。对于目标,我们同时使用目标代码和时间编码:

04c5e0d8abfec5460a914fcac6c37a04.png

图G中的节点由定向边连接,该定向边定义了节点的规范框架之间的刚性变换。我们对序列到根边有Pts,对相机到序列边有Pc,对目标到序列边也有ξ。

3D Gaussians:我们用一组各向异性的3D高斯基元来表示场景几何体。每个3D高斯基元gk通过其平均值μk、协方差矩阵∑k和基本不透明度αk来参数化。协方差矩阵被分解为表示为单位四元数qk的旋转矩阵和缩放向量ak。gk的几何形状表示为:

853bd5f42ed5d0903f01ed5c581b3125.png

常见的场景几何支架是用一组3D高斯Gr建模的,而我们对每个动态目标o都有一组单独的3D高斯Go。事实上,场景几何在序列中基本一致,而目标几何是不同的。三维高斯Gr在世界坐标系中表示,而每组Go在以目标为中心的规范坐标系中表达,该坐标系可以通过遍历G映射到世界坐标系。

与[18]不同的是,我们的3D高斯不包含任何外观信息,将表示的内存占用减少了80%以上。相反,我们利用神经网络来回归每个序列和时间的颜色信息和更新的不透明度。对于Gr中的3D高斯建模场景脚手架,我们预测了一个不透明度衰减项,该项用于通过缩小αk来建模瞬态几何。相反,对于Go中的3D Gaussians建模目标,基本不透明度保持不变。因此:

0654c03b47d2e4e70c7464d47bde960e.png

ADC中的修剪决策是通过对基本不透明度αk取阈值来获得的,这是可以直接访问没有计算开销。

最后,在存在非刚性目标o的情况下,我们通过神经网络预测变形项到Go中3D基元的位置,对于每个时间t。在这种情况下,基元的最终位置由:

9d8b377d4312037f6cf3deb9da11f89d.png

外观和瞬态几何形状:

0c4f5bc6220b3a072ce7ffcfc883e736.png

给定场景图G和3D高斯图G,我们使用两个有效的神经场来解码每个基元的外观参数。对于Gr中的3D高斯静态场景建模,神经场用φ表示,并回归不透明度衰减项和颜色,给定3D高斯基元的位置μk、观看方向d、基本不透明度αk和节点的潜在编码:

294528c0ff0accbb7c8c5c1bc63fc584.png

对于Go建模动态目标的3D高斯,神经场由ψ表示,并回归颜色。除了基元的位置和观察方向外,我们还将ψ设为潜在向量,并对局部目标纹理和全局序列外观(如照明)进行建模。这里,序列s是o所属的序列,即满足o和t。因此,Go中3D高斯的颜色由下式给出:

8f2fea6b79590be63b73614a367a7e96.png

对于我们的目的,使用神经场有三个关键优势。首先,通过在所有3D高斯G中共享φ和ψ的参数,当扩展到大规模城市区域时,我们实现了比[18]中更紧凑的表示。其次,它允许我们对依赖序列的外观和瞬态几何进行建模,这是从异构数据中学习场景表示的基础。第三,节点之间的信息共享实现了序列和目标外观的交互。

非刚性目标。街景不仅被刚性移动的车辆占据,还被以非刚性方式移动的行人和骑自行车的人占据。由于它们在有限的视觉覆盖范围内不受约束地运动,因此构成了重大挑战。因此,我们采用分解方法对非刚性目标进行建模,该方法使用场景图G对全局刚性目标运动进行建模,同时使用变形头χ对局部关节运动进行建模。变形头通过预测局部位置偏移:

00829c6bd23f3da2cee1caa3317270c9.png

背景建模。为了实现对远处物体和天空的真实渲染,有一个背景模型是很重要的。受[54]的启发,在场景边界外,沿射线以越来越大的距离对点进行采样,我们将3D高斯放置在场景周围的球体上,半径为r2i+1,其中i∈{1,2,3},其中r是场景边界直径的一半。为了避免前景场景几何的模糊性并提高效率,我们移除i)地平面以下、ii)被前景场景点遮挡或iii)任何训练视图的视锥台之外的所有点。为了在每个球体上均匀分布点,我们使用Fibonacci球体采样算法,该算法使用基于黄金比例的公式将点排列成螺旋图案。即使这种采样不是最优的,它也可以作为最优采样的更快近似值。

Composition and Rendering

场景组合。为了在序列s中的时间t从相机c的角度呈现我们的表示,我们遍历图G以获得每个可见目标o∈Os的潜在向量ωst和潜在向量ωot,即t∈To。此外,对于G中的每个3D高斯基元gk,我们使用收集的相机参数、目标比例和姿态信息来确定从基元的参考系(例如Gr的世界、Go的目标空间)到相机c的图像空间的变换πck映射点。不透明性αs,t根据方程(4)计算,而颜色cs,t通过方程(6)和(7)。

光栅化。为了从相机c渲染场景,我们遵循[18]并将3D高斯图泼洒到图像平面。实际上,对于每个基元,我们计算由gck表示的2D高斯核,平均μck由基元的位置到图像平面的投影给出,即具有协方差。最后,我们应用3D高斯的传统阿尔法合成来渲染相机c的像素p:

7942fd8aa02af35b1c7b27b242f90366.png

Optimization

整体损失函数如下:

6a2b956a05431482d3790b37e721209d.png

位姿优化。除了优化场景测量之外,在野外场景中细化重建的姿态参数至关重要,因为所提供的姿态通常具有有限的精度。

自适应密度控制。为了促进3D高斯基元的生长和修剪,参数θ的优化通过ADC机制交错。这种机制对于实现照片真实感渲染至关重要。然而,它并不是为在数万张图像上进行训练而设计的,因此我们开发了一种流线型的多GPU变体。首先,跨流程积累统计数据至关重要。然后,我们不在GPU 0上运行ADC并同步结果,而是只同步ADC的不确定性部分,即从正在分割的3D高斯图中提取的随机样本。这些通常比3D高斯的总数少得多,从而避免了通信开销。接下来,将3D高斯参数替换为其更新的副本。然而,这将损害梯度的同步,因为在PyTorch DDP中,参数在模型初始化时只注册一次。因此,我们在[79]中提供的低级API中完成ADC机制后,重新初始化Reducer。

此外,城市街景对ADC提出了一些独特的挑战,例如规模的巨大变化,例如附近汽车与远处建筑和天空的极端特写。由于密度不足,这可能导致特写效果模糊。我们通过使用最大2D屏幕大小作为分割标准来解决这一问题。1此外,ADC考虑3D高斯的世界空间尺度ak来修剪大的基元,这会伤害远离相机的背景区域。因此,我们首先测试3D高斯是否在场景边界内,然后根据ak对其进行修剪。最后,当三维高斯基元的生长不受约束时,城市区域的规模会导致记忆问题。因此,我们引入了一个阈值,在保持修剪的同时限制原始生长。

实验结果

59f4cc1fa5d1c1ee31b5eb0005b76c26.png 3a28d8cd3af115be01ab43ebc3003f98.png 4032130d54005fed154831f72e8f0cfc.png 07903a1f27b0c73a2ddb93bf6eba703e.png cdefceae5430fba894dd8e1cb9c1a91c.png

结论

我们提出了4DGF,一种动态城市区域的神经场景表示。4DGF利用3D高斯作为高效的几何支架和紧凑但灵活的神经场对高度动态的大规模城市区域进行建模,这些神经场在捕捉过程中对大的外观和几何变化进行建模。我们使用场景图对动态目标运动进行建模,并在任意配置和条件下灵活地组合表示。我们共同优化了3D高斯、神经场和场景图,显示了最先进的视图合成质量和交互式渲染速度。

局限性:虽然4DGF改进了动态城市区域的新颖视图合成,但该问题的挑战性为进一步探索留下了空间。尽管我们对场景动力学、外观和几何体变化进行建模,但其他因素会影响真实世界捕捉中的图像渲染。首先,野外拍摄往往表现出由物理图像形成过程引起的失真。因此,对滚动快门、白平衡、运动和散焦模糊以及色差等现象进行建模是避免重建伪影所必需的。其次,[18]中针孔相机模型的假设在我们的工作中仍然存在,因此我们的方法无法对更复杂的相机模型进行建模,如矩形相机,这对于某些拍摄设置来说可能是次优的。

更广泛的影响。我们希望我们的工作通过改进底层技术,对机器人模拟和混合现实等现实世界的用例产生积极影响。虽然我们不希望恶意使用我们的方法,但我们注意到,不准确的模拟,即我们的系统故障,可能会影响机器人系统的性能,进一步影响现实世界的部署。

参考

[1] Dynamic 3D Gaussian Fields for Urban Areas

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

3a3f6d8abfa243f184afb666f5439aa1.png 网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

15dec4b160c5e4c16b5e41be6d489ea6.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

fb1f1fb00f2b8a520f1b843bbe6f2c8f.jpeg

④【自动驾驶之心】全平台矩阵

1316dcee402ce1699a3ad53fe8fe5db9.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值