Meta提出Make-A-Video3D：一行文本，生成3D动态场景！

最新推荐文章于 2024-10-20 22:31:43 发布

Amusi（CVer）

最新推荐文章于 2024-10-20 22:31:43 发布

阅读量1.3k

点赞数

文章标签： 3d 人工智能计算机视觉深度学习

原文链接：https://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247571426&idx=3&sn=64b0b4bb1de5f55cd277a23631f5e40f&chksm=f9a0a56dced72c7b4b48f7a0ec6c80e48ed416fa9b969e96fd08dd6d5b11aa4910e41d9b57d4&scene=126&sessionid=0

版权

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【计算机视觉】微信技术交流群

转载自：机器之心

不再需要任何 3D 或 4D 数据，来自 Meta 的研究者首次提出了可以从文本描述中生成三维动态场景的方法 MAV3D (Make-A-Video3D)。

仅输入一行文本，就能生成 3D 动态场景？

没错，已经有研究者做到了。可以看出来，目前的生成效果还处于初级阶段，只能生成一些简单的对象。不过这种「一步到位」的方法仍然引起了大量研究者的关注：

在最近的一篇论文中，来自 Meta 的研究者首次提出了可以从文本描述中生成三维动态场景的方法 MAV3D (Make-A-Video3D)。

Text-To-4D Dynamic Scene Generation
论文链接：https://arxiv.org/abs/2301.11280
项目链接：https://make-a-video3d.github.io/

具体而言，该方法运用 4D 动态神经辐射场（NeRF），通过查询基于文本到视频（T2V）扩散的模型，优化场景外观、密度和运动的一致性。任意机位或角度都可以观看到提供的文本生成的动态视频输出，并可以合成到任何 3D 环境中。

MAV3D 不需要任何 3D 或 4D 数据，T2V 模型只对文本图像对和未标记的视频进行训练。

让我们看一下 MAV3D 从文本生成 4D 动态场景的效果：

此外，它也能从图像直接到 4D，效果如下：

研究者通过全面的定量和定性实验证明了该方法的有效性，先前建立的内部 baseline 也得到了改进。据悉，这是第一个根据文本描述生成 3D 动态场景的方法。

方法

该研究的目标在于开发一项能从自然语言描述中生成动态 3D 场景表征的方法。这极具挑战性，因为既没有文本或 3D 对，也没有用于训练的动态 3D 场景数据。因此，研究者选择依靠预训练的文本到视频（T2V）的扩散模型作为场景先验，该模型已经学会了通过对大规模图像、文本和视频数据的训练来建模场景的真实外观和运动。

从更高层次来看，在给定一个文本 prompt p 的情况下，研究可以拟合一个 4D 表征，它模拟了在时空任意点上与 prompt 匹配的场景外观。没有配对训练数据，研究无法直接监督的输出；

然而，给定一系列的相机姿势就可以从渲染出图像序列并将它们堆叠成一个视频 V。然后，将文本 prompt p 和视频 V 传递给冻结和预训练的 T2V 扩散模型，由该模型对视频的真实性和 prompt alignment 进行评分，并使用 SDS（得分蒸馏采样）来计算场景参数 θ 的更新方向。

上面的 pipeline 可以算作 DreamFusion 的扩展，为场景模型添加了一个时间维度，并使用 T2V 模型而不是文本到图像（T2I）模型进行监督。然而，要想实现高质量的文本到 4D 的生成还需要更多的创新：

第一，需要使用新的、允许灵活场景运动建模的 4D 表征；
第二，需要使用多级静态到动态优化方案来提高视频质量和提高模型收敛性，该方案利用几个 motion regularizer 来生成真实的运动；
第三，需要使用超分辨率微调（SRFT）提高模型的分辨率。

具体说明见下图：

实验

在实验中，研究者评估了 MAV3D 从文本描述生成动态场景的能力。首先，研究者评估了该方法在 Text-To-4D 任务上的有效性。据悉，MAV3D 是首个该任务的解决方案，因此研究开发了三种替代方法作为基线。其次，研究者评估了 T2V 和 Text-To-3D 子任务模型的简化版本，并将其与文献中现有的基线进行比较。第三，全面的消融研究证明了方法设计的合理性。第四，实验描述了将动态 NeRF 转换为动态网格的过程，最终将模型扩展到 Image-to-4D 任务。

指标

研究使用 CLIP R-Precision 来评估生成的视频，它可以测量文本和生成场景之间的一致性。报告的指标是从呈现的帧中检索输入 prompt 的准确性。研究者使用 CLIP 的 ViT-B/32 变体，并在不同的视图和时间步长中提取帧，并且还通过询问人工评分人员在两个生成的视频中的偏好来使用四个定性指标，分别是：(i) 视频质量；(ii) 忠实于文本 prompt；(iii) 活动量；(四) 运动的现实性。研究者评估了在文本 prompt 分割中使用的所有基线和消融。

图 1 和图 2 为示例。要想了解更详细的可视化效果，请参见 make-a-video3d.github.io。

结果

表 1 显示了与基线的比较（R - 精度和人类偏好）。人工测评以在特定环境下与该模型相比，赞成基线多数票的百分比形式呈现。

表 2 展示了消融实验的结果：

实时渲染

使用传统图形引擎的虚拟现实和游戏等应用程序需要标准的格式，如纹理网格。HexPlane 模型可以轻易转换为如下的动画网格。首先，使用 marching cube 算法从每个时刻 t 生成的不透明度场中提取一个简单网格，然后进行网格抽取（为了提高效率）并且去除小噪声连接组件。XATLAS 算法用于将网格顶点映射到纹理图集，纹理初始化使用以每个顶点为中心的小球体中平均的 HexPlane 颜色。最后，为了更好地匹配一些由 HexPlane 使用可微网格渲染的示例帧，纹理会被进一步优化。这将产生一个纹理网格集合，可以在任何现成的 3D 引擎中回放。

图像到 4D

图 6 和图 10 展示了该方法能够从给定的输入图像产生深度和运动，从而生成 4D 资产。

更多研究细节，可参考原论文。

点击进入—>【计算机视觉】微信技术交流群

最新CVPP 2023论文和代码下载

后台回复：CVPR2023，即可下载CVPR 2023论文和代码开源的论文合集

后台回复：Transformer综述，即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立
扫描下方二维码，或者添加微信：CVer333，即可添加CVer小助手微信，便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注：研究方向+地点+学校/公司+昵称（如目标检测或者Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer333，进交流群
CVer学术交流群（知识星球）来了！想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料，欢迎扫描下方二维码，加入CVer学术交流群，已汇集数千人！

▲扫码进群
▲点击上方卡片，关注CVer公众号

整理不易，请点赞和在看