IMAGEN VIDEO: HIGH DEFINITION VIDEO GENERATION WITH DIFFUSION MODELS

Lcx559

已于 2023-06-25 20:54:07 修改

阅读量605

点赞数 1

文章标签：人工智能深度学习

于 2023-06-25 20:52:35 首次发布

本文链接：https://blog.csdn.net/Lcx559/article/details/131381592

版权

文章提出了一种基于级联的视频扩散模型，结合了图像生成模型和渐进蒸馏方法，用于生成高清晰度视频。模型从64帧的低分辨率视频扩展到128帧的高清视频，包括T5文本编码器、基础视频扩散模型以及空间和时间超分辨率模型。通过时间卷积和两阶段蒸馏策略加速采样过程，模型在大规模的内部数据集和LAION-400M数据集上进行训练。

摘要由CSDN通过智能技术生成

IMAGEN VIDEO: HIGH DEFINITION VIDEO GENERATION WITH DIFFUSION MODELS

video 减小模型 multi-concept 机器人

abstract

提出一种基于级联的视频扩散模型，将基于扩散的图像生成模型以及渐进蒸馏应用于该模型中。
该工作总将64帧128128的视频扩展为128帧1280768的视频，每秒24帧播放。
主要架构包含了T5文本编码器，一个基础视频扩散模型，以及交错空间和时间超分辨率扩散模型。

Method

级联扩散模型

级联扩散模型生成低分辨率的图像或视频，然后通过一系列超分辨率扩散模型依次提高图像或视频的分辨率。
整体框架
在这里插入图片描述
包含一个冻结的文本编码器，一个基本的视频扩散模型，3个SSR（空间超分）和3个TSR（时间超分）模型。SSR增加所有帧的空间分辨率，TSR通过填充帧增加时间分辨率。
每个扩散模型可以独立训练。
这里使用时间卷积，而不是时间注意力

工作建立于U-Net上，利用视频扩散模型同时对多个视频帧进行操作，一次生成整个视频帧块
在这里插入图片描述
利用渐进蒸馏实现扩散模型的快速采样。利用一个两阶段的蒸馏，在无分类指导下蒸馏DDIM采样器，

Experiment

在由1400万个视频-文本对和6000万个图像-文本对组成的内部数据集以及公开可用的LAION-400M（https://laion.ai/blog/laion-400-open-dataset/）图像-文本数据集的组合上训练我们的模型。

无code！！！！

Lcx559

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
IMAGEN VIDEO: HIGH DEFINITION VIDEO GENERATION WITH DIFFUSION MODELS

提出一种基于级联的视频扩散模型，将基于扩散的图像生成模型以及渐进蒸馏应用于该模型中。该工作总将64帧128128的视频扩展为128帧1280768的视频，每秒24帧播放。主要架构包含了T5文本编码器，一个基础视频扩散模型，以及交错空间和时间超分辨率扩散模型。
复制链接

扫一扫