一张照片，TikTok小姐姐就都能跳舞了

最新推荐文章于 2024-06-17 09:38:14 发布

再不会AIGC就不礼貌了

最新推荐文章于 2024-06-17 09:38:14 发布

阅读量835

点赞数 7

本文链接：https://blog.csdn.net/Everly_/article/details/139113684

版权

动画视频生成这几天火了，这次 NUS、字节的新框架不仅效果自然流畅，还在视频保真度方面比其他方法强了一大截。

前几日，阿里研究团队构建了一种名为 Animate Anyone 的方法，只需要一张人物照片，再配合骨骼动画引导，就能生成自然的动画视频。不过，这项研究的源代码还没有发布。

其实在 Animate Anyone 这篇论文出现在 arXiv 上的前一天，新加坡国立大学 Show 实验室和字节联合做了一项类似的研究。他们提出了一个基于扩散的框架 MagicAnimate，旨在增强时间一致性、忠实地保留参考图像并提升动画保真度。并且，MagicAnimate 项目是开源的，目前推理代码和 gradio 在线 demo 已经发布。

为了实现上述目标，研究者首先开发了一个视频扩散模型来编码时间信息。接着为了保持跨帧的外观连贯性，他们引入了新颖的外观编码器来保留参考图像的复杂细节。利用这两个创新，研究者进一步使用简单的视频融合技术来保证长视频动画的平滑过渡。

实验结果表明，MagicAnimate 在两项基准测试上均优于基线方法。尤其在具有挑战性的 TikTok 跳舞数据集上，本文方法在视频保真度方面比最强基线方法高出 38％以上。

还有国外网友在HuggingFace上创建了一个试用空间，创建一个动画视频只要几分钟。不过这个网站已经404了。

图源：twitter.com/gijigae/sta…

接下来介绍 MagicAnimate 的方法和实验结果。

方法概览

给定参考图像 I_ref 和运动序列，其中 N 是帧数。MagicAnimate 旨在合成连续视频。其中出现画面 I_ref，同时遵循运动序列。现有基于扩散模型的框架独立处理每个帧，忽略了帧之间的时间一致性，从而导致生成的动画存在「闪烁」问题。

为了解决该问题，该研究通过将时间注意力（temporal attention）块合并到扩散主干网络中，来构建用于时间建模的视频扩散模型。

此外，现有工作使用 CLIP 编码器对参考图像进行编码，但该研究认为这种方法无法捕获复杂细节。因此，该研究提出了一种新型外观编码器（appearance encoder），将 I_ref 编码到外观嵌入 y_a 中，并以此为基础对模型进行调整。

MagicAnimate 的整体流程如下图 2 所示，首先使用外观编码器将参考图像嵌入到外观嵌入中，然后再将目标姿态序列传递到姿态 ControlNet中，以提取运动条件。

在实践中，由于内存限制，MagicAnimate 以分段的方式处理整个视频。得益于时间建模和强大的外观编码，MagicAnimate 可以在很大程度上保持片段之间的时间和外观一致性。但各部分之间仍然存在细微的不连续性，为了缓解这种情况，研究团队利用简单的视频融合方法来提高过渡平滑度。

如图 2 所示，MagicAnimate 将整个视频分解为重叠的片段，并简单地对重叠帧的预测进行平均。最后，该研究还引入图像 - 视频联合训练策略，以进一步增强参考图像保留能力和单帧保真度。

实验及结果

实验部分，研究者在两个数据集评估了 MagicAnimate 的性能，分别是 TikTok 和 TED-talks。其中 TikTok 数据集包含了 350 个跳舞视频，TED-talks 包含 1,203 个提取自 YouTube 上 TED 演讲视频的片段。

首先看定量结果。下表 1 展示了两个数据集上 MagicAnimate 与基线方法的定量结果比较，其中表 1a 显示在 TikTok 数据集上，本文方法在 L1、PSNR、SSIM 和 LPIPS 等重建指标上超越了所有基线方法。

表 1b 显示在 TED-talks 数据集上，MagicAnimate 在视频保真度方面也更好，取得了最好的 FID-VID 分数（19.00）和 FVD 分数（131.51）。

再看定性结果。研究者在下图 3 展示了 MagicAnimate 与其他基线方法的定性比较。本文方法实现了更好的保真度，展现了更强的背景保留能力，这要归功于从参考图像中提取细节信息的外观编码器。

研究者还评估了 MagicAnimate 的跨身份动画（Cross-identity animation），以及与 SOTA 基线方法的比较，即 DisCo 和 MRAA。具体来讲，他们从 TikTok 测试集中采样了两个 DensePose 运动序列，并使用这些序列对其他视频的参考图像进行动画处理。

下图 1 显示出 MRAA 无法泛化到包含大量不同姿态的驱动视频，而 DisCo 难以保留参考图像的细节。相比之下，本文方法忠实地为给定目标运动的参考图像设置动画，展示了其稳健性。

最后是消融实验。为了验证 MagicAnimate 中设计选择的有效性，研究者在 TikTok 数据集上进行了消融实验，包括下表 2 和下图 4 中有无时间建模、外观编码器、推理阶段视频融合以及图像 - 视频联合训练等。

MagicAnimate 的应用前景也很广。研究者表示，尽管仅接受了真实人类数据的训练，但它展现出了泛化到各种应用场景的能力，包括对未见过的领域数据进行动画处理、与文本 - 图像扩散模型的集成以及多人动画等。

写在最后

感兴趣的小伙伴，赠送全套AIGC学习资料，包含AI绘画、AI人工智能等前沿科技教程和软件工具，具体看这里。

AIGC技术的未来发展前景广阔，随着人工智能技术的不断发展，AIGC技术也将不断提高。未来，AIGC技术将在游戏和计算领域得到更广泛的应用，使游戏和计算系统具有更高效、更智能、更灵活的特性。同时，AIGC技术也将与人工智能技术紧密结合，在更多的领域得到广泛应用，对程序员来说影响至关重要。未来，AIGC技术将继续得到提高，同时也将与人工智能技术紧密结合，在更多的领域得到广泛应用。

在这里插入图片描述

一、AIGC所有方向的学习路线

AIGC所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面。

在这里插入图片描述

二、AIGC必备工具

工具都帮大家整理好了，安装就可直接上手！
在这里插入图片描述

三、最新AIGC学习笔记

当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理解，这些理解是比较独到，可以学到不一样的思路。
在这里插入图片描述

四、AIGC视频教程合集

观看全面零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。

在这里插入图片描述

五、实战案例

纸上得来终觉浅，要学会跟着视频一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。
在这里插入图片描述

再不会AIGC就不礼貌了

关注

7
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
一张照片，TikTok小姐姐就都能跳舞了

感兴趣的小伙伴，赠送全套AIGC学习资料，包含AI绘画、AI人工智能等前沿科技教程和软件工具，具体看这里。AIGC技术的未来发展前景广阔，随着人工智能技术的不断发展，AIGC技术也将不断提高。未来，AIGC技术将在游戏和计算领域得到更广泛的应用，使游戏和计算系统具有更高效、更智能、更灵活的特性。同时，AIGC技术也将与人工智能技术紧密结合，在更多的领域得到广泛应用，对程序员来说影响至关重要。未来，AIGC技术将继续得到提高，同时也将与人工智能技术紧密结合，在更多的领域得到广泛应用。
复制链接

扫一扫