已开源！可控视频生成新SOTA，给定参考人物图像即可定制高质量跳舞视频

最新推荐文章于 2024-08-09 17:09:48 发布

PaperWeekly

最新推荐文章于 2024-08-09 17:09:48 发布

阅读量82

点赞数

文章标签：音视频

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw==&mid=2247669996&idx=3&sn=efba12cd7ff3c2bf10a02c3e2d9d59b3&chksm=9744348fe56035234ba1c4d761a781b67a178ed242a3354df84db4553b00947363c2e7f22a70&scene=126&sessionid=0

版权

随着视频生成技术的不断进步，可控跳舞视频合成也逐渐成为一项非常有吸引力的任务，受到了很多研究者的关注。给定一张参考人物图像和一段人体姿态序列，该任务旨在生成遵循给定的条件的时序连续且高保真的视频。

最近，来自华中科技大学、阿里巴巴、中国科学技术大学的研究团队提出了一种名为 UniAnimate 的全新框架，通过统一视频扩散模型来实现高效且长时的跳舞视频生成。该框架克服了目前可控跳舞视频合成领域高效性和保真度瓶颈，性能优于 MagicAnimate、Animate Anyone、Champ 等，为使用者带来了更广泛的应用前景。

论文地址：

https://arxiv.org/abs/2406.01188

项目主页：

https://unianimate.github.io/

Github地址：

https://github.com/ali-vilab/UniAnimate

传统的跳舞视频合成技术通常采样类似于 ControlNet 的范式，需要一个额外的参考模型来对齐身份图像和主干视频分支，这增加了优化负担和模型参数。另外，生成的视频通常时间较短，限制了实际应用的可能性。

为了解决这些问题，UniAnimate 采用了一种统一的架构。不同于之前的方法采用 ControlNet-like 的架构，需要额外的 ReferenceNet 来编码参考图像表观特征来进行表观对齐。

UniAnimate 框架首先将参考图像、姿势指导和噪声视频映射到特征空间中，然后利用统一的视频扩散模型（Unified Video Diffusion Model）同时处理参考图像与视频主干分支表观对齐和视频去噪任务，实现高效特征对齐和连贯的视频生成。另外，引入了参考图像的姿态图作为额外的参考条件，促进网络学习参考姿态和目标姿态之间的对应关系，实现良好的表观对齐。

其次，研究团队还提出了一种统一的噪声输入，其支持随机噪声输入和基于第一帧的条件噪声输入，随机噪声输入可以配合参考图像和姿态序列生成一段视频，而基于第一帧的条件噪声输入（First Frame Conditioning）则以视频第一帧作为条件输入延续生成后续的视频。通过这种方式，推理时可以通过把前一个视频片段（segment）的最后一帧当作后一个片段的第一帧来进行生成，并以此类推在一个框架中实现长视频生成。

最后，为了进一步高效处理长序列，研究团队探索了基于状态空间模型（Mamba）的时间建模架构，作为原始的计算密集型时序 Transformer 的一种替代。实验发现基于时序 Mamba 的架构可以取得和时序 Transformer 类似的效果，但是需要的显存开销更小。

实验结果：

上表展示了 UniAnimate 方法和现有的先进方法在 TikTok 数据集上的对比，UniAnimate 方法在图片指标如 L1、PSNR、SSIM、LPIPS 上和视频指标 FVD 上都取得了最好的结果，说明了 UniAnimate 可以生成高保真的结果。

和现有方法的定性对比实验也可以看出，相比于 MagicAnimate、Animate Anyone，提出的 UniAnimate 方法可以生成更好的连续结果，没有出现明显的 artifacts，表明了 UniAnimate 的有效性。

最后来看下 UniAnimate 的生成视频：

1. 基于合成图片进行跳舞视频生成：

2. 基于真实图片进行跳舞视频生成：

3. 基于粘土风格图片进行跳舞视频生成：

4. 马斯克跳舞：

5. 基于其他跨域图片进行跳舞视频生成：

6. Yann LeCun跳舞：

可以看出 UniAnimate 可以针对不同领域来源的图片，生成高质量且连续的视频结果。获取更多高清视频示例和一分钟时长的生成视频请参考论文的项目主页：

https://unianimate.github.io/

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

PaperWeekly

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
已开源！可控视频生成新SOTA，给定参考人物图像即可定制高质量跳舞视频

随着视频生成技术的不断进步，可控跳舞视频合成也逐渐成为一项非常有吸引力的任务，受到了很多研究者的关注。给定一张参考人物图像和一段人体姿态序列，该任务旨在生成遵循给定的条件的时序连续且高保真的视频。最近，来自华中科技大学、阿里巴巴、中国科学技术大学的研究团队提出了一种名为 UniAnimate 的全新框架，通过统一视频扩散模型来实现高效且长时的跳舞视频生成。该框架克服了目前可控跳舞视频合成领域高效性...
复制链接

扫一扫