Tune-A-Video

Tune-A-Video 是一种将文生图模型应用于文生视频的技术,通过 one-shot video tuning 实现视频编辑。文章探讨了如何利用 T2I 模型生成连续的动作和保持物体一致性,提出了时空注意力机制和 DDIM Inversion 方法,以提高视频生成的连续性和编辑性。实验表明,Tune-A-Video 相比其他方法在生成质量和连续性上有显著优势。
摘要由CSDN通过智能技术生成


Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation.

论文链接:Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation.

Tune-A-Video:用 one-shot 的方法把文生图模型运用到了文生视频的领域。

我们去看一下他这张首图,然后我们就可以看到,比如说这个小黑子在打篮球,然后我们在这个文生图的基础上去把这个视频作为训练集进行训练。然后我们在 prompt 里面输入,比如说詹姆斯邦德,比如说宇航员,那么他们就可以把我这个小黑子打篮球的视频变成了别人去打篮球的视频,比如说变成这个迪斯迪的角色的风格,然后钢铁侠的风格,包括也能改变这个背景,能从这个屋里面去变成在沙滩上,这个就是我们所说的文本引导的视频编辑生成,所以这就是这篇文章要做的事情,这个效果看起来还是很惊艳的,它是一个非常定向的编辑,就是你可以通过文本去定向引导我视频去改变某一个属性或者元素。那它的要求就是文本中改变的东西,必须改变。但是视频里面原本有的东西,而新的 prompt 没有提及的,尽量要保持不变,这就是这个问题要实现的一个目的。

摘要

Text-to-image (T2I) 其实现在已经取得比较大成功了,但是在 text-to-video (T2V) 领域,目前还是相对落后的,为什么呢?因为它计算是非常昂贵的。本文提出了一个 T2V generation setting,通过一个 one-shot video tuning, one shot 就是 base T2I model,只需要一条视频去做一下 fine-tuning,这样就能在这条视频上进行一些编辑,比如说把人换成钢铁侠,类似于这样的操作。

作者调研了很多 T2I 的最先进的 diffusion models,有两点发现:

  • T2I models 都能够去生成静止的图片来表达这些动起来的动作,比如说跑步这个动作就能够用一些图片来表达,而且表达效果还挺好的。
  • 如果采取一些措施,把 T2I models 去简单的应用到视频生成或者说多帧图片的生成上。这些多帧的图像之间如果产生一定关联的话,它是能生成像下面这一行背景包括人物这些元素非常相像的图片的。当然这些图片可能动作并不连贯,但至少它们的元素的相似性是很高的。

因此,作者想要更深入地研究这种连续的动作,如果要生成跑步的视频,一定要保证视频是连续的,而不是单张图片在那跳来跳去的,那样的视频质量很低。所以作者就提出了 Tune-A-Video 的方法,提出了一种 spatio-temporal attention mechanism,一种时空的注意力机制,因为普通的 T2I 的 unit 里面的Transformer,是基于某一张图片自己的空间域内的一个注意力,即同一张图片里面像素与像素之间的注意力,它是能学到的。

如果生成视频的话,当然要对时间上有一些关联,那么它就提出了一个时空注意力,既有单张图片的像素之间的注意力,也有在时序上不同帧之间的一些注意力,这样来保证视频的连贯性。然后作者提出的方法是一种 one-shot tuning strategy,就是只需要一个视频,你想要编辑哪个视频,你就去训练这个视频,然后去编辑它就可以了,它的整体训练是非常高效的。最后在推理过程中,他们采用了 DDIM Inversion,这个实际上是像 image to image 的那种感觉,在需要编辑的图片或者视频加噪,在此基础上再去生成,而不是完全从一个高斯噪声去生成,这样就能保证我们生成的图片或者视频与原来的视频或者图片有一定的相似性。作者做了很多实验去取得了各种很好的效果。

1.Introduction

第一段讲现在有很多方案把这个 T2I 的训练方式搬到了 T2V 的领域。 T2I 是什么训练方式?就是会在网上找非常多的 text-image pairs 去训练一个 T2I 的模型。那么用在视频领域,当然也可以去找很多文本和视频的对去训练一个 T2V 的模型。如果这种文生图的训练方式简单地迁移到文生视频上来的话,那么它对于这个训练的时间和硬件的要求都是非常昂贵的。

其实人类在处理这种编辑的时候,脑子里是有一个很清晰的概念的。比如要把某人打篮球换成钢铁侠打篮球,你脑子里立马能想到他大概是什么样,而不需要做更多的训练。那作者想要做的就是模仿这种行为,文生图模型实际上是经历了很大量的数据进行预训练的,即这个模型其实对于这些概念都是有一定的基础认识的,就像人一样,由于人其实已经知道钢铁侠是什么样子了,那这个 T2I 模型其实也知道,所以这就为文生视频只通过很简单的 one-shot finetuning 就能去实现视频生成作为一个基础支撑。因此,作者提出了一个问题:这些文生视频模型是否能像人一样去推演一个全新的视频,就仅仅只是从一个单一的视频例子中,也就是 one-shot,就像人类一样?所以这是作者的motivation,即作者为什么要去做这样一个 one-shot 的方式,因为他觉得这是可行的,而且和人类的模式是有点像的。

视频生成的两大非常重要的考核标准:1)continuous motion 连续的动作,就是说这视频连续性要很非常好,不能说是一张图一张图简单地拼在一起,那样就不叫生成视频了。2)consistent objects 物体的保持性要很好,人物面部特征以及服饰等都要能够包吃住。这就是作者要说的生成视频里面两个非常重要的需要你关注的点。

作者接下来对摘要中所说的那两点发现做出解释。

(1) Regarding motion: T2I models 能够去用静止的图片去描述这些动作,但是这些图片可能并不是一些连续的。

(2) Regarding consistent objects: 简单的把文生图里面的spatial self-attention 拓展到多图片生成里面,使用 spatio-temporal attention,这样这个相同的人和相同的沙滩就能保持下来了。虽然说这个人的动作可能还是不够连续,但是人的特点和这个沙滩的特点是可以在多帧里面去保持住的。

OAyA9b.png

作者提出了 Tune-A-Video 的算法。通过一个简单的 inflation 膨胀的操作,把一个 T2I models 变成了一个 T2V models。一个最简单的办法,如果在每个帧与帧之间都会去产生注意力,这会导致计算量与帧数呈几何倍数的增加

图片中,上面这一行实际上是没有帧之间关联的,attention 只是存留在单帧照片之间的,因此产生的图片是不够连续的,实际上就是文生图,它的注意力区域就是蓝色的部分 ,这些部分都是自己和自己之间才会有注意力。

下面这一行,如果做一个 full attention,在一个视频所有帧之间都有注意力关联的话,计算量和你的视频帧数是呈平方关系增长的。所以作者想到的解决方式就是只计算你要生成的帧和第一帧 (first) 以及要生成的帧的前一帧 (former) 之间的注意力。换句话说,可能它的注意力的块只有对角线以及次对角线的这些元素上,这样计算量和视频帧数就不会是平方关系了。

如果把 T2I 所有参数进行 fine-tuning 的话,那它可能会破坏这个模型原本在大数据下训练得到的那些概念,也就是说让文本漂移了。以前学会了很多词,现在可能飘了,现在其实又不会表达了。如果你过度 fine-tune 原来 T2I 模型,反而让之前学到的先验知识的损失掉,所以这也是我们要避免的。所以我们只是更新 projection matrix in attention blocks,比如它只更新一小部分 attention 的 block,而不是更新所有的 unet 或者整个模型的参数。通过小量的更新能保持住这个模型对于原本学到的很多的那个概念,实际上这是一种防止过拟合的方式来保持文生视频模型的可编辑性。

时空注意力能够让视频的背景和前景都保持一定的相似性,但它的动作可能还是不够连续的。那怎么办?通过使用 DDIM Inversion 实际上就是类似于图生图之中的加噪过程,通过对原视频加噪,然后在加噪之后的那个图片或者视频上再去反向生成,这样就能够保持住原视频或者原图片的一些特征。因为原视频实际上本身是连续的,那生成的视频大概率也会更连续性更好一些。所以 DDIM inversion 对原视频的连续性和原视频的特征保持上都会有一些好处。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值