IMAGEN VIDEO: HIGH DEFINITION VIDEO GENERATION WITH DIFFUSION MODELS
video 减小模型 multi-concept 机器人
abstract
提出一种基于级联的视频扩散模型,将基于扩散的图像生成模型以及渐进蒸馏应用于该模型中。
该工作总将64帧128128的视频扩展为128帧1280768的视频,每秒24帧播放。
主要架构包含了T5文本编码器,一个基础视频扩散模型,以及交错空间和时间超分辨率扩散模型。
Method
级联扩散模型
级联扩散模型生成低分辨率的图像或视频,然后通过一系列超分辨率扩散模型依次提高图像或视频的分辨率。
整体框架
包含一个冻结的文本编码器,一个基本的视频扩散模型,3个SSR(空间超分)和3个TSR(时间超分)模型。SSR增加所有帧的空间分辨率,TSR通过填充帧增加时间分辨率。
每个扩散模型可以独立训练。
这里使用时间卷积,而不是时间注意力
工作建立于U-Net上,利用视频扩散模型同时对多个视频帧进行操作,一次生成整个视频帧块
利用渐进蒸馏实现扩散模型的快速采样。利用一个两阶段的蒸馏,在无分类指导下蒸馏DDIM采样器,
Experiment
在由1400万个视频-文本对和6000万个图像-文本对组成的内部数据集以及公开可用的LAION-400M(https://laion.ai/blog/laion-400-open-dataset/)图像-文本数据集的组合上训练我们的模型。
无code!!!!