CVPR 2024 | MotionEditor：首个面向动作编辑的视频扩散模型

最新推荐文章于 2025-03-03 17:06:46 发布

Amusi（CVer）

最新推荐文章于 2025-03-03 17:06:46 发布

阅读量474

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247600045&idx=2&sn=6bd619329b8ce82e8b6fcd69c2d4b8d3&chksm=f8b892b1de5fcd3dc74431b21a917c664c37301a0b54c7c6ee26ac91817c42da73a4448dd0e8&scene=126&sessionid=0

版权

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【Mamba/多模态/扩散】交流群

添加微信：CVer5555，小助手会拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

MotionEditor: Editing Video Motion via Content-Aware Diffusion

https://francis-rings.github.io/MotionEditor/

代码：

https://github.com/Francis-Rings/MotionEditor

1. 简介

尽管扩散模型在图像和视频编辑领域取得了显著的成功，但现有的工作主要集中在纹理编辑，即对视频中人物的属性、视频背景和视频风格进行编辑，尚未考虑到对视频中最独特、最鲜明的运动信息进行编辑。在本文中，我们首次探索了对视频动作的编辑，即给定参考视频和提示，我们的目标是对源视频的人物动作进行编辑，使其与参考视频中的人物动作保持一致，并在此过程中保留人物的外观信息。

为此，我们提出了MotionEditor，首次利用扩散模型实现了视频运动信息的编辑，如图1所示。MotionEditor首先针对原始视频进行单样本学习（one-shot learninig）以保留原始视频的纹理特征。具体地，针对ControlNet缺乏时序一致性的建模能力的难题，我们设计了运动适配器以增强时序建模能力及对姿态信号的控制能力，从而实现姿态信息与外观信息的高效交互，以保留原始视频的外观信息。在推理时，给定目标视频，我们设计了一种骨架对齐算法以缓解源视频姿态骨架和目标视频姿态参考骨架之间的大小和位置差异，从而将目标视频的动作更好地迁移到原始视频中。我们还设计了基于两分支架构（重建和编辑分支）的注意力注入机制，以保留源视频中人物和背景信息，并通过分支的交互大幅提升了生成质量。

图1.MotionEditor: 一个基于扩散模型的视频编辑方法，可以将给定的参考视频中的运动信息迁移到源视频上。

2. 方法

2-1. 模型整体架构

如图2所示，MotionEditor首先通过引入额外的时序自注意力层将扩散模型中U-Net的空间Transformer扩展为3D Transformer，并提出了Consistent-Sparse Attention (CS Attention) 以取代扩散模型原始的空间自注意力。为了实现精确的运动编辑并保证时序一致性，我们设计了一个运动适配器对来自U-Net的特征和来自ControlNet的姿态信息进行融合。进而，我们采用单样本学习的策略来训练时序注意模块和运动适配器，以重建源视频输入。

在推理过程中，给定参考目标视频的运动信息迁移到源视频，同时保留源视频的外观信息。为此，我们首先设计一种骨架对齐算法，通过考虑位置和大小来减少源视频姿态骨架和目标视频姿态参考骨架之间的差距，并输出对齐后的目标骨架。然后，我们对视频的像素值进行DDIM反演，从而产生潜在噪声作为采样的起点。更重要的是，我们设计了包含重建和编辑两分支的网络结构，并设计了一种高保真注意力注入机制用来实现两分支的交互，从而使生成的视频能够保持原始视频的复杂背景信息和人物的衣服纹理信息。具体地，编辑分支利用目标姿态骨架的特征将运动信息从目标视频迁移到源视频，并基于重建分支的关键外观信息，使生成的编辑视频保留原视频的外观和背景。

图2.MotionEditor的框架图。在训练阶段，只有运动适配器和U-Net中的时序注意力层是可训练的，在推理阶段，我们首先将源视频和参开视频的人物骨架通过缩放和仿射进行对齐，我们接着构建了一个双分支网络，一个用于重建原视频，一个用于执行视频编辑。运动适配器通过利用来自源视频的潜空间特征(latents)来增强ControlNet的运动信息建模能力，我们同时将来自重建分支的键(K)/值(V)注入到编辑分支中，使模型生成的视频保留原始视频的外观信息。

2-2. 运动适配器

我们的运动适配器将ControlNet输出的特征作为输入，以实现高效的空间建模。该适配器由

全局建模路径和局部建模路径并行组成，其中全局建模路径包括内容感知交叉注意力模块和时序自注意力建模模块，局部建模路径则使用两个时序卷积块以捕获局部运动特征。

具体地，我们的交叉注意力模块对来自U-Net和ControlNet的特征进行建模，其中查询(Q)来自姿势特征，键/值(K/V)来自相应的U-Net生成的潜在表示（latent code）：

这样的设计可以使运动适配器捕捉视频潜在空间中的运动线索，进而可以实现动作的编辑，避免外观与姿态不一致导致的冲突。

2-3. 高保真注意力注入机制

尽管我们的运动适配器可以准确地捕捉身体姿势，但它可能会意外地改变视频中人物和背景的外观。因此，我们提出从重建分支到编辑分支的高保真注意力注入机制，从而使编辑后的视频保留源视频中人物和背景的细节。由于前景特征和背景特征耦合程度过高，导致传统的注意力融合方法在模糊区域（即运动区域）质量较不理想。为了解决这个问题，我们通过语义掩码将键(K)和值(V)解耦为前景和背景，通过将分离的键(K)和值(V)从重建分支注入到编辑分支，大幅提升了生成质量。注意力注入机制如图3所示。

图3.推理过程中高保真的注意力注入机制示意图。我们利用原视频的前景掩码来引导在一致稀疏注意力中的键(K)/值(V)解耦合

在介绍注入机制之前，我们首先介绍模型中注意力块的细节。U-Net中的每个注意力块由我们设计的一致稀疏注意力（CS-Attention）、交叉注意力和时序注意力组成。我们利用一致稀疏注意力替换原始U-Net中的空间注意力，以在几乎没有额外计算开销的情况下进行时空建模。具体来说，以重建分支为例，一致稀疏注意力中的查询(Q)由当前帧得到，而键/值是从当前帧和当前帧的上一帧得到的。这样的设计可以提高帧间一致性：

其中[.]指的是拼接操作。

在此基础上，我们在解码阶段将重建分支中一致稀疏注意力和时序注意力的键/值注入到编辑分支。具体地，对于一致稀疏注意力，我们使用原视频的背景信息掩码来解耦合前景信息和背景信息，即给定重建分支的键和值，我们利用掩码对原始的键/值(K/V)进行点乘，从而将原始信息解耦合为前景信息和背景信息，即前景（和）和背景（和）

基于掩码的策略可以使生成视频中的背景和前景内容更为保真，值得注意的是，简单的替换在编辑分支的键/值会导致模型生成的视频中存在大量的动作跳变，因为模型会严重地受到来自源视频中运动信息的影响，因此我们结合源视频的动作信息和生成视频的动作信息以生成更加精准的运动描述，在编辑分支，稀疏注意力的键(K)和值(V)都会被注入到键和值更新。

其中表示在编辑分支的当前帧和上一帧的特征，和表示在编辑分支中稀疏注意力中原始的键(K)和值(V)，和表示来自当前帧的键和值。

在Temporal Attention中的注入机制则简单很多，因为在稀疏注意力中已经执行了局部的空间区域建模，我们直接将来自重建分支的和注入到编辑分支。

3. 实验

3-1. 视频动作信息编辑

图4. MotionEditor的视频运动信息编辑效果

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

扫描下方二维码，或者添加微信：CVer5555，即可添加CVer小助手微信，便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者扩散模型+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer5555，进交流群
CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集近万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请点赞和在看