MAKE-A-VIDEO: TEXT-TO-VIDEO GENERATION WITHOUT TEXT-VIDEO DATA
Abstract
contribution: 1.加速了T2V的模型训练,2. 不需要文本视频数据
分解全时间U-Net(空间)和注意力张量(时间),在时间和空间上进行近似。设计了一个时空管道,通过视频解码器、插值模型和两个超分辨率模型生成高分辨率和帧速率视频,这些模型可以实现除T2V之外的各种应用。
Method
framework:
输入文本信息,通过先验扩散模型获得16帧图像(6464),通过插值网络F插值,获得76帧图像,利用伪3D卷积以及伪3D注意力机制对空间维度和事件维度的时间信息进行匹配,通过对空间维度和时间维度上进行超分已获得最终的视频图像(768768)
伪3D卷积以及伪3D注意力机制
Result
数据集:Laion-5b