MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Vi

MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model

代码链接:github

1. 摘要

MOFA-Video,一种先进的可控图像利用各种附加可控信号(如人类地标参考、手动轨迹,另一个甚至提供视频)或它们的组合。这不同于以往的方法只能在视频生成流水线中工作。对于MOFA-Adapters,在给定的稀疏控制条件下,首先对视频的时间运动一致性进行分析,生成密集的运动流,将给定图像的多尺度特征作为引导特征进行包裹,以稳定地生成视频扩散。我们为手动轨迹和人类地标分别训练两个运动适配器,因为它们都包含关于控制的稀疏信息。经过培训,不同领域的MOFA-Adapters也可以共同努力,实现更可控的视频生成。
在特定的运动域或表现出较弱的控制能力与扩散先验。为了实现我们的目标,我们设计了几个域感知运动场适配器(即MOFA-Adapters)来控制生成的运动

之前的方法例如(Sadtalker通过音频和给定的人脸产生准确的人脸动画)
这些方法通常遵循通过自我监督学习视频的规则分解,然后通过新的驱动信号制作动画。

然而,由于由于自然动画先验的限制,这些方法在一般图像中都不适用

与以前的域内图像动画不同,当前基于扩散的图像到视频(I2V)方法学习以端到端方式从图像生成视频。

利用域内图像动画和图像到视频的生成,我们很好奇:是否有一个通用的图像动画框架,支持对野生图像的细致控制能力?然后我们发现所有的动画都可以通过稀疏关键点(或关键帧)的运动传播来作为控制句柄

为此,受controlnet网络[ 48 ]的启发,我们提出了MOFA - Video,在一般的视频扩散模型(在我们的案例中,稳定视频扩散)的基础上增加了不同的运动控制能力。具体来说,为了根据来自多个域的稀疏控制信号将输入图像动画到视频中,我们设计了一种新颖的MOFA - Adapter,该适配器在预训练的视频扩散模型上充当额外的适配器,从而可以控制视频的运动。与之前的ControlNet-like Adapter [ 38、51 ]不同,MOFA - Adapter对视频帧间运动进行显式建模。

具体来说,我们首先利用给定的稀疏运动线索,使用稀疏到稠密的运动生成网络来生成稠密的运动场,然后,我们将第一帧的多尺度特征作为扩散生成过程的条件特征。这种从稀疏到稠密的运动生成在提供的运动引导和生成过程之间提供了很好的平衡,提供了高质量的具有良好时间一致性的动画结果。我们还考虑了there包含多个运动域的问题。因此,我们通过将这些任务视为稀疏控制点生成问题来训练多个MOFA - Adapter,包括开放世界的手动轨迹,人类面部动画等。此外,由于视频扩散模型的参数是固定的,我们可以联合执行跨多个域的运动控制能力,例如,人脸和背景物体以及相机运动。我们在实验中给出了更详细的应用和例子。本文的贡献可以概括为:
-我们提出了一种新颖的用于稳定视频扩散( Stable Video Diffusion,SVD )中可控图像动画的统一框架;
-我们设计了一种新颖的网络结构,即MOFA - Adapter,它利用显式的稀疏运动提示进行变形和生成;
-详细的实验和消融表明了所提出的方法比现有方法的优势。

2. 方法

我们的目标是在一个统一的框架下,从给定的参考图像和多个运动域(例如,手工设计的轨迹、人类路标序列、密集运动流等。)中的附加运动控制信号生成视频,因此它们可以共享一个统一的网络结构,并像Multi Control Net [ 48 ]一样协同工作。为了实现这一目标,如图2所示,我们设计了一个生成式运动场适配器( MOFA- Adapter )可以接受稀疏的运动控制信号作为条件,并对冻结的稳定视频扩散模型产生详细的控制能力[ 7 ]。我们在两个不同的运动域中分别训练所提出的MOFA - Adapter,并基于每个模型及其组合提供各种应用。

在接下来的章节中,我们首先介绍了所提出的MOFAAdapter的结构。3 . 1 .然后,我们详细介绍了如何为Sec中的视频扩散模型训练领域感知的MOFA - Adapter。3 . 2 .最后,在SEC . 3,我们给出了所提方法的推理细节和各种附加应用。

2.1 生成运动场适配器( Mofa-Adapter)


在冻结视频扩散模型上设计了MOFA - Adadpters,以统一的结构适应来自不同域的运动。由单幅图像和对应的稀疏运动提示生成视频。训练时,首先通过稀疏运动采样生成稀疏运动提示,然后通过预训练的SVD训练不同的MOFA - Adapter生成视频。

所提出的适配器基于一个参考编码器,一个用于采样运动提示的稀疏到稠密( sparse-to-dense S2D )运动生成器,以及特征融合编码器,将扭曲的特征添加回预训练的视频扩散模型

参考图像编码器是一个多尺度卷积特征编码器,它提取第一帧的多尺度特征进行变形,以Conv - SiLU - ZeroConv [ 48 ]构建的每个阶段作为基本块。对于稀疏到稠密的运动生成器,我们使用与CMP [ 47 ]相同的网络结构进行自适应。该网络也是一个卷积神经网络,它接受第一帧图像和运动的稀疏提示,并产生稠密的运动场。网络结构的更多细节可以在原文中找到[ 47 ]。当产生稠密运动场时,我们将参考特征进行扭曲,然后将其添加到复制的SVD编码器相应级别的特征图中,然后将其添加到预训练的SVD的解码器的特征空间中,类似于controlnet网络。

2.2 训练Mofa适配器,使其具有稳定的视频扩散能力

我们使用稳定视频扩散[ 7 ]作为我们的基本图像到视频扩散模型,该模型接受图像作为输入,并生成带有空闲动画的视频。它是一种潜在扩散模型[ 29 ],首先使用预训练的自动编码器将参考图像压缩到潜在空间,然后通过采样的高斯噪声、条件图像和扩散过程生成视频[ 15 ]。

在这里插入图片描述
图2展示了我们整个框架的训练流程。给定一个L帧的视频片段V∈RL × 3 × H × W,我们首先提取稀疏运动矢量作为S2D网络的输入,例如,对于开放域,我们将运动暗示处理为从提取的稠密光流中采样的稀疏运动矢量。对于人体运动,我们从结构关键点(例如面部特征点)生成运动暗示。在下面,我们给出了每个具体类型的细节:

从稠密光流中稀疏运动矢量。通过将稠密光流作为视频帧之间的通用运动表示,我们首先利用Unimatch [ 42 ]提取前向光流为F∈R ( L-1 ) × 2 × H × W,其中Fi∈R2 × H × W表示从第0帧到( i + 1 )帧的光流。基于流序列F,我们使用分水岭采样策略[ 47 ]为每一帧Fi采样n个空间点。具体来说,我们首先得到一个稀疏掩膜M s∈RH × W,其中采样空间点的值设置为1,其他点设置为0。然后计算稀疏运动矢量F s∈R ( L-1 ) × 2 × H × W为:

从结构化人体关键点中稀疏运动向量。与自然运动场不同,人体关键点提供了简洁且具有语义意义的表示。在我们的方法中,我们将一组关键点的运动看作是前面提到的稀疏运动向量的一种特殊情况。这种统一的表示简化了我们的框架,并允许我们共享S2D模型的相互先验信息。具体地,给定从L帧人像视频中提取的一系列2D人脸特征点P∈RL × K × 2,我们考虑参考(第一)帧特征点( P和P )之间的运动差异,计算逐点稀疏流F s via:

在drag video中测试效果最逼真,建议尝试(找工作中,之前存货,先发表了,后面补上)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值