港大、阿里提出图生视频新方法LivePhoto, 让真实图片根据你的指令动起来!你说咋动就咋动

仅需一句文本指令,让LeCun竖起大拇指,让埃菲尔铁塔放起烟花,让完好的蜡烛迅速烧完,给镜头换一个视角。港大、阿里提出图生视频新方法LivePhoto, 让真实图片根据你的指令动起来!LivePhoto能很好的保持参考图片的细节,精准跟随文本指令,生成大幅度运动的视频。在与当下爆火的Pikalabs和GEN-2的对比中,LivePhoto展现出更强的运动控制能力。

论文:LivePhoto: Real Image Animation with Text-guided Motion Control

项目主页:https://xavierchen34.github.io/LivePhoto/

论文链接:https://arxiv.org/abs/2312.02928

LivePhoto_权重

效果展示

LivePhoto将用户给定的图像作为生成视频的第一帧, 以文本描述为运动依据生成对应的视频。如下图,给定一张LeCun的经典照片,用户仅需输入文本指令可以就让lecun做出“微笑”,“点赞”,和“喝啤酒”的动作。简直表情包生成神器!

LivePhoto_人工智能_02

与此同时 LivePhoto支持用户对运动强度进行调整。给定相同的参考图片和文本指引,不同的运动强度可能产生不同的视频效果。如下图,提升运动强度后,微笑的幅度有了明显的变化,点赞也从一个大拇指变成了双手赞同。

LivePhoto_Image_03

方法

GEN-2, Pikalabs等图生视频方法可以生成丝滑流畅的内容,虽然他们都支持文本输入,但是文本对于视频内容的控制能力无法让人满意。LivePhoto着力于研究如何在保持参考图像细节id的同时,生成听从文本指引的内容。

我们首先提出内容参考模块,让模型能够参考给定图像的内容生成视频。在此基础上,我们分析文本控制之所以难以完成有如下两个原因:

1)本文信号不足以很好的描述运动。给定相同的参考图片和文本指引,在运动强度不同的情况下,可以对应差异很大的视频内容,造成“文本-运动”对齐的困难。由此,我们引入运动强度控制作为文本描述的补充,将学习“文本-运动”的对齐转化为学习 “文本+强度-运动”的对齐。

2)文本信号同时包含内容和运动描述。而Stable Diffusion翻译的内容描述会和给定的参考图片产生冲突。在学习的过程中,模型倾向于从参考图像获取信号,忽略文本信号。针对这一难题,我们对文本信号进行“重加权”,突出运动描述,减少文本中内容描述与参考图像的冲突。是得文本和图像条件实现互补。

LivePhoto_github_04

如上图所示,由最基础的文生图模型Stable Diffusion出发。LivePhoto首先在UNet的层间加入运动学习模块使其具备文生视频的能力。在此基础上,我们从“图像内容参考”,“运动强度指引”和“文本重加权”三个方面开展研究。 

图像内容参考:我们从三个方面保持参考图像的内容细节。首先我们将参考图像的latent feature与UNet的输入噪声进行拼接,提供像素层面指引。此外我们使用一个Image Encoder提取图像的高层token, 通过交叉注意力注入UNet。在测试时,我们使用参考图像对初始噪声进行加权,提供内容先验。

运动强度指引:为了更好的刻画视频运动,我们将运动强度信息编码成为条件提供更好的指引。我们将运动强度分为十个等级,每个等级对应一个Embedding与UNet的输入噪声进行拼接。训练时,我们用相邻帧间SSIM的平均值对给定视频的运动强度进行估计,并将运动强度的数值分档。测试时,用户可以方便的条件运动强度,或者使用默认值。

文本重加权:为了强调文本中的运动描述,我们设计了文本重加权模块。该模块由三层transformer layer, 一层线性层,一层sigmoid激活函数组成,对每一个CLIP text embedding预测一个权重,并且将该权重与CLIP embedding相乘。该结构保留了CLIP的语义空间,不会破坏模型的泛化能力。

效果对比

在与当下爆火的Pikalabs以及GEN-2的对比中,LivePhoto不落下风,甚至展示出了更强的文本控制能力。如下图,在驱动角色运动的示例中,LivePhoto在保持参考目标的id属性以及文本控制运动的准确性上展示出了明显优势。

LivePhoto_Image_05

除了常规的动作驱动,LivePhoto还具备“无中生有”的能力,比如:模拟火山喷发的效果,让静谧的天空出现电闪雷鸣,让静止的草垛着火等等。在无中生有方面,LivePhoto展示出的能力明显优于之前的算法。

LivePhoto_人工智能_06

展望:LivePhoto 展示出了优越的可控生成能力,为表情包和制作短片生成等应用提供了可能。未来我们将继续提升生成视频的分辨率,迈向高清、可控的视频生成。