【论文精读】Text-To-4D Dynamic Scene Generation

首篇文本驱动动态场景生成的文章。
在这里插入图片描述

准备:DALLE-2

上方:CLIP语义识别
下方:输入文本的特征向量,prior层,自回归 or Diffusion,这里是Diffusion,然后输出图像的enbedding
在这里插入图片描述

text encoder

使用一个冻住的CLIP,通过输入的文本得到特征向量

Prior Diffusion Model

训练的时候目标是希望通过Prior model生成一个image feature,训练的时候image feature通过CLIP的带,在推断的时候只需要输入文本:
input: text feature and text token sequence
output: image feature

Decoder

使用Diffusion model进行解码。Produce images conditioned on CLIP image embeddings

Super-Resolution

超分网络。把解码器输出的64×64的图片上采样作为condition,用于超分。
超分时,把x和condition拼接在一起。

Abstract

MAV3D(Make-A-Video3D)
用动态的4D nerf
Text-to-video保证运动一致性
整体上看,是用2D的生成器去蒸馏4D的重建

存在问题:
①动态3D场景快速生成 end-to-end
②先用T2I生成静态的3D图像,SDS loss和motion regularizers(运动的约束)
③时间超分模型,提升分辨率

Pipline

在这里插入图片描述
优化时间平面和空间平面
绿色线:生成静态图像T2I
黄色线:优化动态场景MAV
红色线:超分网络,提升分辨率MAV SR

Method

4D场景表示

Hexolane
6个平面的动态NERF。
给出位置与方向无关
用MLP表示

动态场景优化

每个Batch中是一个视频序列
视频序列加噪声。

先优化静态模型,将时间设置为0。
用T2I的模型实现。

静态→动态
SDS-T
T2V

运动相机
可以物动像不动,也可物不动像动,也可都动。
发现动态相机可以减少multi-face的问题

FPS Sampling

Gaussian Annealing

Total Variation Loss

超分模型

在这里插入图片描述
每一堆图:
上:未超分
下:超分后

附录

在这里插入图片描述
上:小浣熊,未使用此方法,不同角度出错
下:小浣熊,使用此方法,连贯的。

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值