华科最新工作SA4D：首个基于4DGS分割任何事物的框架！

最新推荐文章于 2024-08-26 07:03:33 发布

自动驾驶之心

最新推荐文章于 2024-08-26 07:03:33 发布

阅读量141

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247622235&idx=3&sn=f552abb24b1a0fb531dea1186c918ab7&chksm=cfbeddefd7efdacf4b0a7dca23776340e2037e2935f5a11015291459d572eebfd211d3396f58&scene=126&sessionid=0

版权

作者 | Shengxiang Ji 编辑 | 3D视觉之心

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『分割』技术交流群

本文只做学术分享，如有侵权，联系删文

写在前面

华科&华为&上交团队最新的工作《Segment Any 4D Gaussians》，主要应用于4D动态场景的分割任务，结合4DGS效果很惊艳~

建模、理解和重建现实世界在XR/VR中至关重要。最近3DGS方法在建模和理解3D场景方面取得了显著成功。同样，各种4D表示已经证明了捕捉4D世界动态的能力。然而，很少有研究关注4D表示中的分割。本文提出了Segment Any 4D Gaussians（SA4D），这是基于4D Gaussian分割4D数字世界中anything的首批框架之一。在SA4D中，引入了一个高效的时间identity特征场来处理高斯伪影，有可能从噪声和稀疏输入中学习精确的identity特征。此外，还提出了一种4D分割细化过程来消除伪影。我们的SA4D在4D高斯中在几秒钟内实现了精确、高质量的分割，并显示了去除、重新着色、合成和渲染高质量任何mask的能力。

项目主页：https://jsxzs.github.io/sa4d/

总结来说，本文的主要贡献如下：

我们重新表述了4D分割的问题，并提出了Segment-Any 4D Gaussians（SA4D）框架，以高效地将SAM提升到4D表示。
时间identity特征字段包括一个紧凑的网络，该网络从噪声特征图输入中学习高斯人的身份信息，并缓解高斯伪影。分割细化过程还提高了推理渲染速度，使场景操作更简单、更方便。
SA4D使用RTX 3090 GPU在10秒内实现快速交互式分割，具有照片级逼真的渲染质量，并无缝实现高效的动态场景编辑操作，例如删除、重新着色和合成。

准备工作

问题定义

由于之前很少有主要关注4D分割的工作，因此有必要重新制定。值得注意的是，4D表示在分割方面显示出其弱点，我们将4D分割定义如下：

问题：给定在数据集L上训练的任何基于变形的4D高斯表示O，问题是找到一个有效的解决方案A。目标应满足以下几个特征：

当在任何视图V处光栅化目标o时，的splatted图像应对应于真实ID分割：

Gaussian Grouping

Gaussian Grouping扩展了Gaussian Splatting，以连接重建和分割开放世界3D场景中的任何东西。它为每个高斯引入了一个新的参数，即identity编码，用于对3D-GS中的任何内容进行分组和分割。然后，这些身份编码与其他属性一起附加到3D高斯分布图上。类似于在[3]中渲染RGB图像，将3D高斯映射到特定的相机视图，并通过differential splatting算法S计算像素p的2D identity feature ：

4D Gaussian Splatting

4D-GS扩展了3D-GS以有效地对动态场景进行建模，这些场景通过紧凑的表示O来表示4D场景。在时间戳t，3D高斯的时间和空间特征通过时空结构编码器进行编码：

然后，变形解码器D使用三个单独的MLP来计算高斯位置、旋转和缩放的变形：

为此，我们将4D-GS的出口流程定义为：

SA4D方法详解

整体框架

我们的关键见解是引入一种表示方法，对来自预训练基础模型V的时间语义信息进行编码，以帮助导出过程，因为4D-GS中的分割无法承受命题3。在SA4D中，我们对导出过程进行了如下改进：

Identity Encoding Feature Field

为了缓解floater，我们提出了一种identity特征场网络，用于在每个时间戳对身份特征进行编码。给定时间t和规范空间中3D高斯G的中心位置X作为输入，时间恒等特征场网络预测每个高斯的低维时变恒等特征e：

监督来自像素的identity，我们使用一个微小的卷积解码器和softmax函数来预测高斯identity f，如方程式（12）所示：

优化。由于很难访问GT 4D目标标签，我们无法用o来监督训练过程。因此，我们采用2D伪分割结果作为监督。

[6]中的3D正则化损失L3d被应用于进一步监督3D目标内和高度遮挡的高斯分布。

4D Segmentation Refinement

后处理。尽管时间身份特征场网络显示出对3D高斯时间身份特征进行编码的能力，但导出过程仍然受到严重遮挡和不可见高斯以及噪声分割监督的影响。为了得到一个更精确的G'，它类似于o，我们采用了两步后处理。第一步是去除异常值，与[4,6]相同。然而，如[2]所述，在两个目标之间的界面上仍然存在一些模糊的高斯分布，它们不会或只会略微影响定量结果，但会影响几何体o'。因此，在第二步中，类似于[2]，我们利用2D分割监督Imask来消除这些模糊的高斯分布。具体来说，我们为每个高斯g分配一个掩模m渲染3D点掩模，并在[2]中应用mask投影损失：

Gaussian Identity Table。通过隐式身份编码场网络并在推理过程中逐帧执行后处理，对于场景编辑来说既耗时又不方便。因此，我们建议将每个训练时间戳的分割结果存储在高斯恒等式表M中，并采用推理过程中最接近的时间戳插值，如方程式（16）所示：

具体来说，训练后，用户可以输入目标ID。我们的方法根据目标的身份编码，在每个训练时间戳分割出属于该目标的4D高斯分布。最终分割结果存储在高斯恒等式表中。在大多数情况下，此过程可以在10秒内完成，并显著提高推理过程中的渲染速度。4D分割细化的细节在算法2中。

实验

动态场景编辑的效果如下：

消融结果的可视化：

限制

虽然SA4D可以在4D高斯中实现快速高质量的分割，但存在一些局限性，可以在未来的工作中加以探索。

（1）与Gaussian Grouping类似，选择目标需要一个标识号作为提示，与“点击”或语言相比，这会导致选择所需目标的困难。
（2）变形场无法在目标级别进行分解，因此需要整个变形网络参与分割和渲染过程。
（3）不同视频输入之间的掩码身份冲突使得有效使用多视图信息变得困难。
（4）与3D分割类似，由于3D高斯的特征，目标伪影仍然存在。

结论

本文提出了一种Segment-Any-4D高斯框架，以实现4D-GS中快速精确的分割。通过4D-GS和时间身份特征场网络，将不同时间戳下世界空间的语义监督转换为规范空间。时间身份特征域网络还解决了高斯漂移问题。SA4D可以渲染高质量的新颖视图分割结果，还支持一些编辑任务，如目标删除、合成和重新着色。

参考

[1] Segment Any 4D Gaussians

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！重磅，自动驾驶之心科研论文辅导来啦，申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向，欢迎联系我们！

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频