IMAGEN VIDEO: HIGH DEFINITION VIDEO GENERATION WITH DIFFUSION MODELS

IMAGEN VIDEO: HIGH DEFINITION VIDEO GENERATION WITH DIFFUSION MODELS

video 减小模型 multi-concept 机器人

abstract

提出一种基于级联的视频扩散模型,将基于扩散的图像生成模型以及渐进蒸馏应用于该模型中。
该工作总将64帧128128的视频扩展为128帧1280768的视频,每秒24帧播放。
主要架构包含了T5文本编码器,一个基础视频扩散模型,以及交错空间和时间超分辨率扩散模型。

Method

级联扩散模型

级联扩散模型生成低分辨率的图像或视频,然后通过一系列超分辨率扩散模型依次提高图像或视频的分辨率。
整体框架
在这里插入图片描述
包含一个冻结的文本编码器,一个基本的视频扩散模型,3个SSR(空间超分)和3个TSR(时间超分)模型。SSR增加所有帧的空间分辨率,TSR通过填充帧增加时间分辨率。
每个扩散模型可以独立训练。
这里使用时间卷积,而不是时间注意力

工作建立于U-Net上,利用视频扩散模型同时对多个视频帧进行操作,一次生成整个视频帧块
在这里插入图片描述
利用渐进蒸馏实现扩散模型的快速采样。利用一个两阶段的蒸馏,在无分类指导下蒸馏DDIM采样器,
在这里插入图片描述

Experiment

在由1400万个视频-文本对和6000万个图像-文本对组成的内部数据集以及公开可用的LAION-400M(https://laion.ai/blog/laion-400-open-dataset/)图像-文本数据集的组合上训练我们的模型。

无code!!!!

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值