LivePhoto

最新推荐文章于 2025-05-30 21:53:46 发布

徐凯强 Andy

最新推荐文章于 2025-05-30 21:53:46 发布

阅读量120

点赞数 1

文章标签：计算机视觉人工智能

港大、阿里提出图生视频新方法LivePhoto, 让真实图片根据你的指令动起来！你说咋动就咋动

仅需一句文本指令，让LeCun竖起大拇指，让埃菲尔铁塔放起烟花，让完好的蜡烛迅速烧完，给镜头换一个视角。港大、阿里提出图生视频新方法LivePhoto, 让真实图片根据你的指令动起来！LivePhoto能很好的保持参考图片的细节，精准跟随文本指令，生成大幅度运动的视频。在与当下爆火的Pikalabs和GEN-2的对比中，LivePhoto展现出更强的运动控制能力。

论文：LivePhoto: Real Image Animation with Text-guided Motion Control

项目主页：https://xavierchen34.github.io/LivePhoto/

论文链接：https://arxiv.org/abs/2312.02928

LivePhoto_权重

效果展示

LivePhoto将用户给定的图像作为生成视频的第一帧，以文本描述为运动依据生成对应的视频。如下图，给定一张LeCun的经典照片，用户仅需输入文本指令可以就让lecun做出“微笑”，“点赞”，和“喝啤酒”的动作。简直表情包生成神器！

LivePhoto_人工智能_02

与此同时 LivePhoto支持用户对运动强度进行调整。给定相同的参考图片和文本指引，不同的运动强度可能产生不同的视频效果。如下图，提升运动强度后，微笑的幅度有了明显的变化，点赞也从一个大拇指变成了双手赞同。

LivePhoto_Image_03

方法

GEN-2, Pikalabs等图生视频方法可以生成丝滑流畅的内容，虽然他们都支持文本输入，但是文本对于视频内容的控制能力无法让人满意。LivePhoto着力于研究如何在保持参考图像细节id的同时，生成听从文本指引的内容。

我们首先提出内容参考模块，让模型能够参考给定图像的内容生成视频。在此基础上，我们分析文本控制之所以难以完成有如下两个原因：

1）本文信号不足以很好的描述运动。给定相同的参考图片和文本指引，在运动强度不同的情况下，可以对应差异很大的视频内容，造成“文本-运动”对齐的困难。由此，我们引入运动强度控制作为文本描述的补充，将学习“文本-运动”的对齐转化为学习 “文本+强度-运动”的对齐。

2）文本信号同时包含内容和运动描述。而Stable Diffusion翻译的内容描述会和给定的参考图片产生冲突。在学习的过程中，模型倾向于从参考图像获取信号，忽略文本信号。针对这一难题，我们对文本信号进行“重加权”，突出运动描述，减少文本中内容描述与参考图像的冲突。是得文本和图像条件实现互补。

LivePhoto_github_04

如上图所示，由最基础的文生图模型Stable Diffusion出发。LivePhoto首先在UNet的层间加入运动学习模块使其具备文生视频的能力。在此基础上，我们从“图像内容参考”，“运动强度指引”和“文本重加权”三个方面开展研究。

图像内容参考：我们从三个方面保持参考图像的内容细节。首先我们将参考图像的latent feature与UNet的输入噪声进行拼接，提供像素层面指引。此外我们使用一个Image Encoder提取图像的高层token, 通过交叉注意力注入UNet。在测试时，我们使用参考图像对初始噪声进行加权，提供内容先验。

运动强度指引：为了更好的刻画视频运动，我们将运动强度信息编码成为条件提供更好的指引。我们将运动强度分为十个等级，每个等级对应一个Embedding与UNet的输入噪声进行拼接。训练时，我们用相邻帧间SSIM的平均值对给定视频的运动强度进行估计，并将运动强度的数值分档。测试时，用户可以方便的条件运动强度，或者使用默认值。

文本重加权：为了强调文本中的运动描述，我们设计了文本重加权模块。该模块由三层transformer layer, 一层线性层，一层sigmoid激活函数组成，对每一个CLIP text embedding预测一个权重，并且将该权重与CLIP embedding相乘。该结构保留了CLIP的语义空间，不会破坏模型的泛化能力。

效果对比

在与当下爆火的Pikalabs以及GEN-2的对比中，LivePhoto不落下风，甚至展示出了更强的文本控制能力。如下图，在驱动角色运动的示例中，LivePhoto在保持参考目标的id属性以及文本控制运动的准确性上展示出了明显优势。

LivePhoto_Image_05

除了常规的动作驱动，LivePhoto还具备“无中生有”的能力，比如：模拟火山喷发的效果，让静谧的天空出现电闪雷鸣，让静止的草垛着火等等。在无中生有方面，LivePhoto展示出的能力明显优于之前的算法。

LivePhoto_人工智能_06

展望：LivePhoto 展示出了优越的可控生成能力，为表情包和制作短片生成等应用提供了可能。未来我们将继续提升生成视频的分辨率，迈向高清、可控的视频生成。

原创作者: whaosoft 转载于: https://blog.51cto.com/whaosoft/11641396