Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators

Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators

Abstract

Challenge: 最近的文本到视频生成方法依赖于计算量大的训练,并且需要大规模的视频数据集。
Motivation: 介绍了一种新的零镜头文本到视频生成任务,并通过利用现有文本到图像合成方法(例如稳定扩散)的力量,提出了一种低成本的方法(无需任何训练或优化),使其适用于视频领域。

  1. 能够生成即便有运动动力学的帧,保持全局场景和背景时间的一致。
  2. 使用第一帧上的每个帧的新跨注意力重新编程帧级自注意力,保持前景对象的上下文、外观和身份。
    code:https://github.com/PicsartAI-Research/Text2Video-Zero.
    contribution:
  3. 利用运动信息丰富生成帧的潜在代码,保证全局场景于背景时间的一致性,在每一帧上使用注意力机制。
  4. 实现零样本的视频生成和编辑,只使用了与训练的文本到图像的扩散模型(stable diffusion),没有进行如何的微调和优化

Method

Stable diffusion

利用SD生成latent code图像在latent space上的特征

Zero-shot

首先使用SD获得latent code,利用运动动力学则增强确定背景以及全局背景时间上的一致性,在利用ddpm的前向传播获得latent code,最后根据跨帧注意力机制保留下图像中前景对象的外观特征,可以选择使用背景平滑,过滤出前景对象特征
在这里插入图片描述

attention

使用跨帧注意力机制来在整个生成的视频中保留关于(特别是)前景对象的外观、形状和身份的信息。将注意力都放在第一帧上。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值