Lumiere: Google 发布用于视频生成的时空扩散模型

4723fdd7bc06d08ab84cca69eedb1b28.jpeg

来源: 跳动的数据

Lumiere 一种文本转视频扩散模型,旨在合成具有逼真、多样和连贯运动的视频,这是视频合成领域的一项重大挑战。为此,引入了一种时空 U-Net 架构,该架构通过模型的一次单向传递即可生成视频的整个时间段。这与现有视频模型不同,现有视频模型会先合成关键帧,然后再进行时间超分辨率,这种方法从本质上使得全局时间一致性难以实现。

840631f2e74d36fc6585a1ccc479c596.jpeghttps://arxiv.org/pdf/2401.12945.pdf

通过部署空间和(重要地)时间下采样和上采样以及利用预训练的文本转图像扩散模型,我们的模型可以学习通过在多个时空尺度进行处理来直接生成全帧率、低分辨率视频。展示了最先进的文本转视频生成结果,并表明我们的设计可以轻松地促进各种内容创作任务和视频编辑应用程序,包括图像转视频、视频修复和风格化生成。

简介

指出了图像生成模型在近年来取得的显著进展,尤其是在文本到图像(T2I)扩散模型方面。这些模型现在能够合成高分辨率、逼真的图像,并且能够根据复杂的文本提示进行图像编辑和其他下游任务。

尽管图像生成模型取得了巨大成功,但文本到视频(T2V)模型的训练仍然是一个开放的挑战。这是因为视频数据相比于图像数据增加了时间维度,这不仅使得模型对自然运动的建模更为敏感,而且对内存和计算资源提出了更高的要求,同时也需要更大规模的训练数据来学习更复杂的数据分布。

现有的T2V模型普遍采用级联设计,即首先通过基础模型生成稀疏的关键帧,然后使用时间超分辨率(TSR)模型在关键帧之间生成缺失的数据。这种方法虽然内存效率较高,但由于其设计上的局限性,难以生成全局一致的运动。例如,基础模型生成的关键帧经过粗略的采样,快速运动在时间上会变得模糊不清;TSR模型受限于固定的小时间上下文窗口,无法在整个视频持续时间内一致地解决模糊问题;级联训练策略通常会在真实视频帧和生成帧之间积累误差。

为了解决这些问题,提出了一个全新的T2V扩散框架,该框架通过使用时空U-Net(STUNet)架构,一次性生成整个视频的时间长度。这种方法通过在空间和时间上对信号进行下采样和上采样,并在紧凑的时空表示中执行大部分计算,从而允许生成更长的视频片段,并保持全局一致的运动。

图片转视频

文本转视频

视频编辑

风格化生成

视频风格化

动态照片

视频修复

Lumiere 模型

时空U-Net (STUNet) 架构: Lumiere 模型的核心是一个创新的时空U-Net架构,它能够在空间和时间两个维度上对视频信号进行下采样和上采样。这种架构使得模型能够在一个紧凑的时空表示中执行大部分计算,从而生成具有全局时间一致性的完整视频片段。

生成过程: 与现有模型不同,Lumiere 模型通过单次传递生成整个视频的时间长度,而不是依赖于关键帧和时间超分辨率的级联方法。这种方法避免了在生成全局一致运动时的固有限制。

预训练的文本到图像模型: Lumiere 模型建立在一个预训练的文本到图像(T2I)扩散模型之上。这个预训练模型在像素空间中工作,并包含一个基础模型和一个空间超分辨率(SSR)级联。通过这种方式,Lumiere能够利用预训练模型的强大生成先验。

空间超分辨率 (SSR): 由于内存限制,空间超分辨率网络只能在视频的短片段上操作。为了实现平滑的时间过渡并避免时间边界伪影,Lumiere模型采用了MultiDiffusion方法,这是一种用于全景图像生成的全局连续性方法。

生成结果: 论文展示了Lumiere模型在多种文本到视频生成任务中的最新成果,包括文本到视频、图像到视频、风格化生成和视频修复等。这些结果证明了Lumiere模型在生成具有复杂运动和全局一致性的视频方面的有效性。

设计选择:  详细讨论了Lumiere模型的关键设计选择,包括如何在T2I架构中插入时间层,以及如何在网络的不同层级中使用不同的下采样和上采样策略。

下游应用: 论文还探讨了Lumiere模型如何轻松适应多种下游应用,包括视频编辑和内容创作任务。展示了如何使用Lumiere模型进行视频修复、风格化视频生成,并将其与其他视频编辑工具结合使用。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

f3f72674016dec75623c4cb31dcf08a0.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值