DynamiCrafter
论文
DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors
模型结构
该模型对Stable Diffusion进行了扩展,使其可以生成视频。在训练时采用双流图像注入(Dual-stream image injection
)机制,该机制以一种上下文感知的方式继承视觉细节并提取输入图像特征。模型的整体流程是这样的,输入分别是x
以及𝑥𝑚(x
中随机帧),视频x
逐帧通过VAE
的编码器部分获取 𝑧0,图像x_m
通过编码器并Repeat
后与z_t
(𝑧0扩散后得到)拼接进入Denoising U-Net
,同时,由𝑥𝑚经过CLIP image encoder
以及Query transformer
后得到的条件与FPS
,Text
特征一同进入U-Net
进行训练。
算法原理
该算法在文本生成视频的基础上,增加了视觉信息,使得在视频生成的过程中可以保留视觉的细节信息。
环境配置
Docker(方法一)
docker pull image.sourcefind.cn:5000/dcu/admin/base/pytorch:2.1.0-centos7.6-dtk23.10.1-py38
docker run --shm-size 10g --network=host --name