3DGS杀疯了！4DGen：基于动态3D高斯的可控4D生成新工作

最新推荐文章于 2024-09-10 23:15:40 发布

Amusi（CVer）

最新推荐文章于 2024-09-10 23:15:40 发布

阅读量454

点赞数

文章标签： 3d

原文链接：https://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247589310&idx=2&sn=ad295e2acedb27c702a1591aa37117c0&chksm=f85d549c8b47c14fa99d32b927951e0642001b3fe2f0f3bc9a5130816f8684fe97bfc46c272a&scene=126&sessionid=0

版权

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【NeRF和3DGS】微信交流群

扫码加入CVer学术星球，可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，以及最前沿项目和应用！发论文搞科研，强烈推荐！

在CVer微信公众号后台回复：论文，即可下载论文pdf和代码链接！快学起来！

本文分享4D生成方向新工作，由北京交通大学和得克萨斯大学奥斯汀分校共同完成的“4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency”，文章使用Gaussian Splatting实现了高质量的4D生成。

主页：https://vita-group.github.io/4DGen/

论文：https://arxiv.org/abs/2312.17225

代码：https://github.com/VITA-Group/4DGen

一、研究背景

尽管3D和视频生成取得了飞速的发展，由于缺少高质量的4D数据集，4D生成始终面临着巨大的挑战。过去几篇工作尝试了Text-To-4D的任务，但依然存在两个主要问题：

1.由于输入依赖于单视角的图片或者简单的文本描述，并不能保证得到精准的4D结果，需要花费大量的时间进行反复调整。

2.尽管采用了Hexplane作为4D的表征，基于NeRF的方法在高分辨率和长视频上的渲染所需要的计算时间和显存占用是难以接受的。即使采用了一个超分辨的后处理网络，依然会有模糊和闪烁的结果。

为了解决上述问题，4DGen定义了“Grounded 4D Generation“新型任务形式，并且设计了新的算法框架实现高质量的4D内容生成。

二、任务定义

过往的4D生成工作是“one click“的方式，并不能对生成的结果进行有效的控制。4DGen提出了“Grounded 4D Generation“的形式，通过利用视频序列和可选的3D模型作为4D生成的控制信息，可以实现更为精准的4D内容生成。用户可通过输入视频序列或3D模型来约束4D结果的运动和外观；当用户仅提供单张图片作为输入时，可借助预训练好的视频生成模型来得到视频序列；当用户未提供3D模型时，可通过单张图片重建3D模型来作为起始点。

三、方法介绍

4DGen框架的输入起始点为用户给定或者模型生成的视频序列，对于任意的单张图片，借助多视角生成模型（multi-view diffusion model），可以得到不同视角的图片。4DGen通过对第一帧多视图进行三维重建，得到初始的静态3D Gaussians作为4D生成的起始点。

由于4D数据的匮乏，需要尽可能的从先验模型中蒸馏信息。4DGen将每一帧生成的多视图作为2D伪标签，并且采用多视图生成的点云作为3D点的伪标签来监督训练过程。

因为多视图生成具有ill-posed的特点，得到的伪标签在不同视角之间，不同时序之间存在不连续性，需要引入时间和空间上的一致性损失函数进行约束。相较于拟合多视图DDIM采样得到的图片，score distillation sampling（SDS）是根据先验的扩散模型对场景表达进行似然估计。4DGen依据正面视角计算任意视角图片在Zero123模型上的SDS损失，用于提升空间上的连续性。为了缓解闪烁问题，4DGen引入了无监督的时间平滑约束。通过计算平面的平滑损失和Gaussians不同时刻的平滑损失，有效提升了时间上的一致性。

四、实施细节

4DGen的 4D表达采用了4D Gaussian Spaltting的方式，通过一个多分辨率Hexplane对每个Gaussian进行编码。将6个时空平面的特征进行相加，并经过一个额外的MLP解码得到对应Gaussian在不同时刻的位置偏移量。

训练上采用三阶段方式，第一阶段对场景进行静态建模，第二阶段利用2D和3D的伪标签进行动态场景的初步建模，第三建模利用平滑损失增强模型的细节和连续性。

所有实验可以在一张RTX3090上完成，对于2.5万个Gaussians只需45分钟的训练，对于9万个Gaussians训练2小时可以得到更加好的细节效果。

五、实验结果

4DGen可以实现不同视角、不同时间的高质量图片渲染。相较于对比方法在细节表达、噪声去除、颜色还原、时空连续性等方面有显著提升。更多视觉效果可以参考项目主页。

量化对比上，4DGen采用了不同时序图片和参考图片的CLIP距离来衡量生成质量，采用CLIP-T衡量不同时间下的图像连续性。4DGen在多项指标上明显优于过往方法。

六、总结

4DGen定义了” Grounded 4D Generation“的任务形式，通过视频序列和可选3D模型的引入提升了4D生成的可控性。通过高效的4D Gaussian Splatting的表达，2D和3D伪标签的监督和时空的连续性约束，使得4DGen可以实现高分辨率、长时序的高质量的4D内容生成。

在CVer微信公众号后台回复：论文，即可下载论文pdf和代码链接！快学起来！

CVPR / ICCV 2023论文和代码下载

后台回复：CVPR2023，即可下载CVPR 2023论文和代码开源的论文合集

后台回复：ICCV2023，即可下载ICCV 2023论文和代码开源的论文合集

NeRF和3DGS交流群成立
扫描下方二维码，或者添加微信：CVer444，即可添加CVer小助手微信，便可申请加入CVer-NeRF或者3DGS微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注：研究方向+地点+学校/公司+昵称（如NeRF或者3DGS+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer444，进交流群
CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集近万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号

整理不易，请点赞和在看

Amusi（CVer）

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫