MAKE-A-VIDEO: TEXT-TO-VIDEO GENERATION WITHOUT TEXT-VIDEO DATA

该研究提出了一种新方法,加速了文本到视频(T2V)模型的训练,且不依赖文本视频数据。采用全时间U-Net和注意力张量在时空上进行近似处理。通过设计的时空管道,结合视频解码器、插值网络和超分辨率模型,生成高分辨率、高帧率视频。利用伪3D卷积和伪3D注意力机制处理空间和时间信息匹配,实验在Laion-5b数据集上进行。
摘要由CSDN通过智能技术生成

MAKE-A-VIDEO: TEXT-TO-VIDEO GENERATION WITHOUT TEXT-VIDEO DATA

Abstract

contribution: 1.加速了T2V的模型训练,2. 不需要文本视频数据
分解全时间U-Net(空间)和注意力张量(时间),在时间和空间上进行近似。设计了一个时空管道,通过视频解码器、插值模型和两个超分辨率模型生成高分辨率和帧速率视频,这些模型可以实现除T2V之外的各种应用。

Method

framework:
在这里插入图片描述
输入文本信息,通过先验扩散模型获得16帧图像(6464),通过插值网络F插值,获得76帧图像,利用伪3D卷积以及伪3D注意力机制对空间维度和事件维度的时间信息进行匹配,通过对空间维度和时间维度上进行超分已获得最终的视频图像(768768)

伪3D卷积以及伪3D注意力机制
在这里插入图片描述

Result

数据集:Laion-5b
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值