华科最新工作SA4D:首个基于4DGS分割任何事物的框架!

作者 | Shengxiang Ji  编辑 | 3D视觉之心

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心分割技术交流群

本文只做学术分享,如有侵权,联系删文

写在前面

华科&华为&上交团队最新的工作《Segment Any 4D Gaussians》,主要应用于4D动态场景的分割任务,结合4DGS效果很惊艳~

建模、理解和重建现实世界在XR/VR中至关重要。最近3DGS方法在建模和理解3D场景方面取得了显著成功。同样,各种4D表示已经证明了捕捉4D世界动态的能力。然而,很少有研究关注4D表示中的分割。本文提出了Segment Any 4D Gaussians(SA4D),这是基于4D Gaussian分割4D数字世界中anything的首批框架之一。在SA4D中,引入了一个高效的时间identity特征场来处理高斯伪影,有可能从噪声和稀疏输入中学习精确的identity特征。此外,还提出了一种4D分割细化过程来消除伪影。我们的SA4D在4D高斯中在几秒钟内实现了精确、高质量的分割,并显示了去除、重新着色、合成和渲染高质量任何mask的能力。

bdd5bdaeebd76abee6926ed98e553a24.png

项目主页:https://jsxzs.github.io/sa4d/

总结来说,本文的主要贡献如下:

  • 我们重新表述了4D分割的问题,并提出了Segment-Any 4D Gaussians(SA4D)框架,以高效地将SAM提升到4D表示。

  • 时间identity特征字段包括一个紧凑的网络,该网络从噪声特征图输入中学习高斯人的身份信息,并缓解高斯伪影。分割细化过程还提高了推理渲染速度,使场景操作更简单、更方便。

  • SA4D使用RTX 3090 GPU在10秒内实现快速交互式分割,具有照片级逼真的渲染质量,并无缝实现高效的动态场景编辑操作,例如删除、重新着色和合成。

相关工作回顾

3D/4D表示。模拟真实世界的场景一直是学术界广泛研究的课题。提出了许多方法]来表示现实世界的场景并取得了显著的成功。NeRF及其扩展被提出,即使在稀疏、过曝的情况下,也能呈现高质量的新颖视图,并在许多下游任务中显示出巨大的潜力。基于网格的表示将NeRF的训练从几天加速到几小时甚至几分钟。几种方法也成功地对动态场景进行了建模,但在体渲染方面受到了影响。基于高斯Splatting(GS)的表示法在保持高训练效率的同时,将渲染速度实时化。使用高斯散斑对动态场景进行建模有几种方法:增量平移、时间扩展和全局变形。在本文中,我们选择全局变形GS表示4D-GS作为我们的4D表示,因为它拥有全局规范3D高斯作为其几何形状,并且能够对单目/多视图动态场景进行建模。变形的3D高斯图像的分割结果也可以很容易地转换为其他时间戳。

基于NeRF/高斯的3D分割。在3D高斯之前,许多研究已经将NeRF扩展到3D场景理解和分割。Semantic-NeRF首先将语义信息整合到NeRF中,并从嘈杂的2D标签中实现了3D一致的语义分割。然后,后续的研究通过引入实例建模但依赖于GT标签,开发了目标感知的隐式表示。为了实现开放世界场景理解和分割,有几种方法将2D基础模型中的2D视觉特征提取到辐射场中。然而,这些方法无法分割语义相似的目标。因此,一些方法采用了SAM令人印象深刻的开放世界分割能力。在分割过程之后,可以遵循修复过程来提取高质量的目标表示。从来没有,上述所有方法都局限于3D静态场景。然而,在4D表示上直接使用3D分割方法也可能陷入高斯漂移。我们的方法通过维护一个身份编码特征场来解决高斯漂移问题,该特征场模拟了语义信息的变形。

动态场景分割。很少有研究人员深入研究动态场景分割。NeuPhysics只允许对动态背景或静态背景进行完全分割。最近,4D Editor将DINO特征提取为混合语义辐射场,并对每帧进行2D-3D特征匹配和递归选择细化方法,以实现4D编辑。但是,编辑一帧需要1-2秒。此外,需要动态前景的地面真实掩模来训练混合语义辐射场。这些限制限制了它的实际适用性。在这项工作中,我们提出了一种新颖的4D分段任意框架,可以实现高效的动态场景编辑操作。例如重新着色、去除、合成。

准备工作

问题定义

由于之前很少有主要关注4D分割的工作,因此有必要重新制定。值得注意的是,4D表示在分割方面显示出其弱点,我们将4D分割定义如下:

问题:给定在数据集L上训练的任何基于变形的4D高斯表示O,问题是找到一个有效的解决方案A。目标应满足以下几个特征:

c540258f34caf9ef1aa2238637f7beb8.png

当在任何视图V处光栅化目标o时,的splatted图像应对应于真实ID分割:

f30337ed03a82a78de52e980a31cf54d.png

Gaussian Grouping

Gaussian Grouping扩展了Gaussian Splatting,以连接重建和分割开放世界3D场景中的任何东西。它为每个高斯引入了一个新的参数,即identity编码,用于对3D-GS中的任何内容进行分组和分割。然后,这些身份编码与其他属性一起附加到3D高斯分布图上。类似于在[3]中渲染RGB图像,将3D高斯映射到特定的相机视图,并通过differential splatting算法S计算像素p的2D identity feature :

e02ce55177c599886f31af304ed86dfa.png

4D Gaussian Splatting

4D-GS扩展了3D-GS以有效地对动态场景进行建模,这些场景通过紧凑的表示O来表示4D场景。在时间戳t,3D高斯的时间和空间特征通过时空结构编码器进行编码:

fb81ff699d819f564cd8f28a9d715450.png

然后,变形解码器D使用三个单独的MLP来计算高斯位置、旋转和缩放的变形:

d1288e6dbaddfd43eb1ef689f668c851.png

为此,我们将4D-GS的出口流程定义为:

98a5609c80acbfbb298c23d7448e6853.png 60a8b95eecd985f705c5b8e16e6771f5.png

SA4D方法详解

整体框架

我们的关键见解是引入一种表示方法,对来自预训练基础模型V的时间语义信息进行编码,以帮助导出过程,因为4D-GS中的分割无法承受命题3。在SA4D中,我们对导出过程进行了如下改进:

6baa0cab80f248941aa2b3341488c3cc.png f89541ca9306f12814d7fae98218891a.png

Identity Encoding Feature Field

为了缓解floater,我们提出了一种identity特征场网络,用于在每个时间戳对身份特征进行编码。给定时间t和规范空间中3D高斯G的中心位置X作为输入,时间恒等特征场网络预测每个高斯的低维时变恒等特征e:

bfe6aa5886e9b9c9e31179f5d99d4d82.png

监督来自像素的identity,我们使用一个微小的卷积解码器和softmax函数来预测高斯identity f,如方程式(12)所示:

728f8010df78b5ac143d1b16d11cdec6.png

优化。由于很难访问GT 4D目标标签,我们无法用o来监督训练过程。因此,我们采用2D伪分割结果作为监督。

d25d865d622812540e147a30d6b3e2f0.png

[6]中的3D正则化损失L3d被应用于进一步监督3D目标内和高度遮挡的高斯分布。

3760def7c79afdc4b37178dc86f2196b.png

4D Segmentation Refinement

后处理。尽管时间身份特征场网络显示出对3D高斯时间身份特征进行编码的能力,但导出过程仍然受到严重遮挡和不可见高斯以及噪声分割监督的影响。为了得到一个更精确的G',它类似于o,我们采用了两步后处理。第一步是去除异常值,与[4,6]相同。然而,如[2]所述,在两个目标之间的界面上仍然存在一些模糊的高斯分布,它们不会或只会略微影响定量结果,但会影响几何体o'。因此,在第二步中,类似于[2],我们利用2D分割监督Imask来消除这些模糊的高斯分布。具体来说,我们为每个高斯g分配一个掩模m渲染3D点掩模,并在[2]中应用mask投影损失:

9b3ab84175ac97d7054d4b769a637c52.png

Gaussian Identity Table。通过隐式身份编码场网络并在推理过程中逐帧执行后处理,对于场景编辑来说既耗时又不方便。因此,我们建议将每个训练时间戳的分割结果存储在高斯恒等式表M中,并采用推理过程中最接近的时间戳插值,如方程式(16)所示:

8f12f43de88aca4801582d389313d592.png

具体来说,训练后,用户可以输入目标ID。我们的方法根据目标的身份编码,在每个训练时间戳分割出属于该目标的4D高斯分布。最终分割结果存储在高斯恒等式表中。在大多数情况下,此过程可以在10秒内完成,并显著提高推理过程中的渲染速度。4D分割细化的细节在算法2中。

f3b6664769c241cc13d66e5e735e5b15.png

实验

afb2db84e04403d1cf512f8f7727e009.png c443d9cafaef2d1ddd08d8db730b8c22.png 61041e0bc00b437c2f6569b9620ddc8b.png

动态场景编辑的效果如下:

fa2f5edaea56e2788335f0e35a07aa92.png 0494e1ccb3c73bf92a619fbd70583458.png

消融结果的可视化:

fa8ecad9507233671d112ab7819f0bf2.png 2f3c508f5166af8750c81513762b85c0.png

限制

虽然SA4D可以在4D高斯中实现快速高质量的分割,但存在一些局限性,可以在未来的工作中加以探索。

  • (1)与Gaussian Grouping类似,选择目标需要一个标识号作为提示,与“点击”或语言相比,这会导致选择所需目标的困难。

  • (2)变形场无法在目标级别进行分解,因此需要整个变形网络参与分割和渲染过程。

  • (3)不同视频输入之间的掩码身份冲突使得有效使用多视图信息变得困难。

  • (4)与3D分割类似,由于3D高斯的特征,目标伪影仍然存在。

结论

本文提出了一种Segment-Any-4D高斯框架,以实现4D-GS中快速精确的分割。通过4D-GS和时间身份特征场网络,将不同时间戳下世界空间的语义监督转换为规范空间。时间身份特征域网络还解决了高斯漂移问题。SA4D可以渲染高质量的新颖视图分割结果,还支持一些编辑任务,如目标删除、合成和重新着色。

参考

[1] Segment Any 4D Gaussians

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!重磅,自动驾驶之心科研论文辅导来啦,申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向,欢迎联系我们!

07b0f4d3b8852017a8f6982f9a23b2f0.jpeg

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

db341e6ce3a55c172ab57451b4a42aca.png

网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

c85866867fb18469236fd145a94570ce.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

1cd8aa097b390de9170bde7f64773a66.jpeg

④【自动驾驶之心】全平台矩阵

d2cfe57598ab7b575ad4c6b94b0926c2.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值