综述 | 一文系统性全面了解“人体视频生成”技术：挑战、方法和见解

猫先生@魔方AI空间

已于 2024-08-20 19:40:59 修改

阅读量1.3k

点赞数 16

分类专栏：综述 AIGC AI视频文章标签：音视频 ai绘画语言模型 AIGC 人工智能

于 2024-08-16 22:04:31 首次发布

本文链接：https://blog.csdn.net/m_aigc2022/article/details/141270384

版权

AIGC 同时被 3 个专栏收录

26 篇文章

订阅专栏

综述

5 篇文章

订阅专栏

AI视频

5 篇文章

订阅专栏

〔更多精彩AI内容，尽在「魔方AI空间」公众号，引领AIGC科技时代〕

本文作者：猫先生

原文地址：

综述 | 一文系统性全面了解“人体视频生成”技术：挑战、方法和见解

人体视频生成是一个动态且快速发展的任务，旨在通过生成模型在给定控制条件如文本、音频和姿势等情况下合成2D人体视频序列。在电影、游戏和虚拟通信等领域具有广泛的应用潜力，生成自然和逼真的人体视频的能力至关重要。

最近的生成模型进步为这一领域的日益增长的兴趣奠定了坚实的基础。尽管取得了重大进展，但由于人物的一致性、人体运动的复杂性以及它们与环境关系的困难，人体视频生成任务仍然具有挑战性。

本综述首次全面回顾了人体视频生成的现状，分析了基于文本、音频和姿势的人体视频生成方法，并讨论常用的数据集和评估指标。最后，讨论了该领域的当前挑战，并提出未来的研究方向。

本综述目标是为研究界提供一个清晰和全面的人体视频生成进展视图，突出已经实现的里程碑和未来的挑战。

引言

人体视频生成任务旨在通过生成模型在给定控制条件（如文本、音频和姿势）的情况下合成自然和逼真的2D人体视频序列。这些生成的视频序列以全身或半身人物为特征，包括身体部位和面部的详细运动表示。最近，由于在电影制作、电子游戏、增强现实/虚拟现实、人机交互、数字人和易于接近的人机交互等广泛领域的潜在应用，这一领域受到显著关注。最近，人体视频生成取得了快速进展，这得益于生成方法的进步，即变分自编码器（VAE）、生成对抗网络（GAN）和扩散模型。然而，研究这种视频合成问题是具有挑战性的，原因如下：首先，人体在时间序列中的外观一致性是这项任务中的一个重要障碍。其次，人体在合成视频中的变形是难以避免的，即如图1所示的手指异常。第三，人体运动视频的复杂性不仅仅限于建模面部；它还涉及准确建模身体运动并保持与身体部位的背景一致性和和谐。

此外，人体运动生成的需求通常包括上下文作为条件，如文本描述、音频信号、姿势序列，确保这些条件信号与时间对齐对于制作连贯和逼真的人体视频至关重要。为了应对人体视频生成的快速发展和新兴挑战，本文提出这一领域的第一篇全面综述，以帮助社区跟踪其进展。

总之，本综述主要贡献有四个方面：

仔细界定人体视频生成的边界，提供对这一领域最新进展的第一篇全面分析。将这些进展归类为三大类：文本驱动、音频驱动和姿势驱动。
通过大量相关方法和广泛的相关数据集、挑战、评估指标和商业项目的清单，彻底检查了人体视频生成中的挑战和障碍。
根据详细的文献综述和深入分析，确定了未来人体运动生成发展的几个有希望的方向。
还提供一个持续更新的GitHub仓库，其中包含该领域最新发展，以及优秀作品和数据集的链接。本综述目标是为研究社区提供最前沿信息，并提供重要研究作品、数据集和应用程序的便捷访问。

与先前综述的比较

这项调查是首次直接聚焦于人体视频生成任务。尽管已经进行了几项关于视频或运动生成的调查，但该调查与现有调查的主要区别在于以下三个方面：

不同范围。这项调查专注于人体视频生成，这是一个使用生成模型输入文本、音频、姿势或其他模态数据，并使用全身或半身角色，包括手和面部作为生成对象的2D视频生成任务。与许多以前的调查关注一般视频生成任务相比，本文详细阐述了人体生成的独特挑战和发展。此外，之前调查仅关注头部生成任务，只关注头部的生成。然而，这项调查的范围额外关注手部，扩展到半身和全身的生成。
视频视角。本文特别从视频视角讨论了人体生成的挑战。相比之下，以前的人体生成调查专注于图像生成中的问题。
新的见解。为了探索和解决人体视频生成中的特殊挑战并提高生成质量，本文通过详细的方法和挑战讨论，以及总结相关的数据集、评估指标和现有的商业项目，提供了对人体视频生成任务的全面分析。本综述目标是为读者提供清晰而简洁的见解，了解促成成功的人体视频生成的因素，并回答“什么构成了一个好的人体视频生成？”的问题。

数据集和评估指标

A. 评估指标

在这一领域中生成的人体视频的评估涵盖了几个关键方面：图像质量、视频质量、一致性、多样性、美学和动作准确性。每个类别对于全面评估不同方法的性能和质量至关重要。如表I所示：

B.数据集

最近，在人体视频生成研究中使用了各种数据集，涵盖了多样的场景、动作和背景。主要的数据集包括来自 TikTok 和 YouTube 等广泛可访问平台的舞蹈、时尚和日常活动视频。这些数据集提供了多样化的数据，支持现有方法的训练和评估。数据集的详细信息显示在表II中。

文本到人体视频生成

文本可以描述特定的外观、场景和风格，为生成模型控制生成内容提供了丰富的信息源。最近的生成方法，如 stable diffusion和Sora，已经显示出使用文本作为输入生成图像和视频取得了令人印象深刻的结果。然而，与一般视频生成任务不同，后者侧重于视频的连贯性，人体视频生成需要对人体的外观和动作进行精确控制。

现有方法从两个主要角度解决这一挑战：一是使用文本来控制外观，二是从文本中提取语义信息来控制姿势。图3展示了现有文本驱动的人体视频生成研究的概述。

A. 文本驱动的人体外观控制

为了在生成视频中控制人体外观，有两种方法：一种是直接提供参考图像，另一种是使用输入的文本描述来控制生成的人体外观。这里，讨论了文本驱动的人体外观控制方法。代表性工作 ID-Animator 利用预训练的文本到视频（T2V）模型和轻量级面部适配器来编码与身份相关的嵌入，确保了生成视频的外观与文本描述保持一致，同时在帧中保持身份细节。

关于 ID-Animator 工作的详细内容请参考《AIGC |「视频生成」系列之ID-Animator：可保持角色一致生成视频动画》

B. 文本驱动的人体动作控制

现有的精确控制生成视频中人体动作的方法通常遵循两种方法：1) 一种方法是遵循两阶段流程。首先根据输入文本的语义生成相应的姿势，然后使用这些生成的姿势指导动作。代表性工作：HMTV、SignSynth、H-DNA。

2）另一种方法是直接使用文本作为提示来指导视频动作的生成。代表性工作如 Text2Performer。

音频到人体视频生成

在本节中，主要讨论两个主要子任务：基于语音的人体视频和基于音乐的人体视频。

A. 基于语音的人体视频生成

许多现有的研究集中在生成谈话视频，主要关注头部区域。然而，本综述专注于包括身体手势在内的作品。

在语音驱动的人体视频生成中，一些方法从2D骨架序列或3D模型合成谈话视频，渲染过程与手势的生成是分开的。但是，依赖于手工制作的2D/3D骨架等结构化人体先验会忽略关键点周围出现的外观信息，这使得精确的动作控制和视频渲染变得非常具有挑战性。

B. 音乐驱动的人体视频生成

音乐驱动的人体视频生成独特地结合了动作合成和音乐解释，目标是创造出与输入音乐节奏同步的人体动作。

这超出了一般动作合成的范畴，因为节拍对齐的动作动画制作非常复杂。一些作品首先从音乐音频中明确检测节拍，或者设计一个匹配阶段来学习音乐和舞蹈之间的关系。

表III总结了与音频到人体视频生成相关的研究工作，包括使用的条件、方法、会议场合、模型、运动特征和数据集。这些研究展示了不同的方法如何利用音频信号来生成与音频同步的人体动作视频。

姿势到人体视频生成

如图5所示，现有的姿势驱动的人体视频生成研究通常遵循一个通用的流程。在姿势驱动的人体视频生成任务中，各种姿势类型，包括骨架姿势、密集姿势、深度、网格和光流（如表IV所示），与更传统的文本和语音输入一起作为常见的引导模态。根据条件姿势的数量，可以将现有的姿势引导的人体视频生成方法分为两类。

A. 单条件姿势引导方法

在所有条件信号中，骨架姿势和密集姿势最为常见。早期基于GAN的姿势引导人体视频生成方法主要使用了条件对抗网络，如CGAN、pix2pix和pix2pixHD。这些方法使用OpenPose或StackPose提取骨架姿势，或使用DensePose方法提取密集姿势，并将提取的姿势作为条件信号输入到CGAN或pix2pix生成模型中。

随着条件生成模型的发展，当前的方法大多利用SD或SVD作为视频生成模型的基础。例如，MagicPose通过ControlNet将姿势特征注入扩散模型。与直接使用ControlNet的方法不同，MotionFollower、MimicMotion、AnimateAnyone和UniAnimate等方法使用DwPose或OpenPose从视频帧中提取骨架姿势。

为了将提取的姿势与潜在空间中的噪声对齐并有效利用姿势引导，它们设计了轻量级神经网络作为姿势引导器。与上述骨架姿势引导的视频生成扩散模型不同，DreamPose和MagicAnimate等方法使用DensePose提取密集姿势，并将密集姿势和噪声直接连接到去噪UNet中。与这些2D姿势不同，Human4DiT使用SMPL提取相应的3D网格图，并将Diffusion Transformer作为视频生成的基础。

B. 多条件姿势引导方法

除了基于单一条件姿势的人体视频生成，SD和SVD的成功为多条件姿势引导的人体视频生成奠定了基础。

大多数现有的姿态引导方法使用骨架姿势或密集姿势作为条件输入。然而，这些单条件姿势引导方法在复杂背景的泛化方面表现不佳，并在不同身体部位和个体之间的遮挡问题上存在挑战。

为解决这些问题，DISCO提出了一种创新的模型架构，具有背景和骨架姿势的解耦控制，提高了舞蹈生成的组合性。这种架构允许整合来自不同来源的已见和新颖的主题、背景和姿势。Follow-Your-Pose v2集成了光流引导和其他条件引导器，增强了背景稳定性。Liu等人分离了前景和背景的运动表示，使用基于姿势的动作为人像建模，同时使用稀疏跟踪点来捕捉人物活动与环境变化之间的自然交互。为解决遮挡问题，Follow-Your-Pose v2使用深度引导器处理多角色动画中的遮挡问题，并使用参考姿势引导器改进角色外观学习。VividPose引入了深度和网格信息，尤其是结合了SMPLX模型，帮助系统更好地处理人体姿势序列中常见的遮挡和复杂动作。DreaMoving集成了深度信息和骨架姿势，帮助模型理解身体不同部分与环境之间的空间关系。深度信息对于处理遮挡非常有用，因为它允许模型确定哪些身体部位在其他部位之前或之后。

表IV列出了专注于姿势引导人体视频生成的方法，包括使用的方法、会议场合、条件提取器和数据集。

挑战

在本节中，总结了人体视频生成任务中的关键挑战，讨论了特定模态引导模型中存在的特殊挑战，并解释了这项任务和相关视频生成任务所面临的常见问题。代表性的挑战包括：

遮挡问题。在收集的视频中，身体部位的重叠或多人遮挡是常见的，但大多数模型不能很好地处理相互影响的问题。
身体变形。确保生成视频中的特征，如身体形状、面部和手部，符合典型的人体特征是一个重大障碍。一个常见的例子是手部形态异常。
外观不一致。人体视频的生成还要求生成视频中的人体外观的各个特征，包括面部、身体、服装、配饰等，在视频中保持一致性。然而，大多数模型无法完全达到满意的一致性。
背景影响。在生成人体在前景的视频时，背景的一致性以及与前景人体的和谐也是一个主要挑战。对背景控制不良将影响人体生成的质量，并带来额外的抖动和失真。
时间不对齐。在由时间信号引导的模型中，特别是音频到人体视频生成模型，口型和声音的同步是一个重要的挑战，以提高质量。
不自然的姿势。当前生成的人体视频常常遭受不自然姿势的问题。这个问题的具体表现包括生成视频与输入引导姿势之间的不一致，以及生成视频中动作的自然性。

除了上述代表性挑战外，在文本或音频驱动的模型中，由于数据集中的一对多映射特性，意味着单个输入文本或音频可以对应多个有效的输出。因此，试图直接将输入与单一的“正确”手势匹配可能导致不可靠和有偏见的关联。这种方法阻碍了模型捕获和学习数据中的变化。应该指出的是，由于人体视频生成本质上是视频生成的一个分支，常见的扩散模型的使用、多视角生成的挑战以及高分辨率生成的挑战仍然对生成质量产生重大影响。

总结和未来展望

A. 结论

在这项调查中，本文提供人体视频生成最新进展的全面概述。尽管这个领域取得了快速进展，但仍存在重大挑战，需要进一步探索。本文总结了现有的数据集资源和常用的评估指标。随后，根据条件信号（即文本、音频和姿势）对现有研究进行了分类，并详细讨论了每个类别。

B. 讨论

在本节中，本文旨在详细讨论影响人体视频生成质量的因素，不包括数据集规模。为此，将重点关注以下三个方面：生成范式、主干网络和条件姿势。

生成范式。与姿势驱动方法（可以被视为单阶段方法）相比，文本和音频驱动方法可以分为单阶段和双阶段方法。
主干网络。扩散模型，如SD和SVD，由于其出色的性能和多样性，在包括人体视频生成在内的各种生成任务中得到广泛应用。然而，与在单一采样步骤中生成样本的GAN不同，扩散模型需要多个采样步骤，从而增加了训练和推理的时间成本。
条件姿势。不同类型的条件姿势之所以有效，是因为它们提供了互补的信息。例如骨架姿势、光流、深度图、3D网格。总之，不同类型的姿势提供了互补的空间时间信息，没有统一的姿势类型可以满足所有要求。不同的场景和问题可能需要不同的姿态。

C. 未来工作

本文从不同角度概述了几个有希望的未来方向，旨在激发人体视频生成研究的新突破。

大规模高质量人体视频数据集。现有的公共数据集，包括人体动作和人体舞蹈领域的数据集，规模相对较小。收集高质量的人体视频数据集既具有挑战性又成本高昂。然而，大规模、高质量的人体视频数据集对于开发人体视频生成的基础模型至关重要。
长视频生成。当前的人体视频生成方法通常只产生几秒钟的视频。生成持续数分钟甚至数小时的视频是一个重大挑战。因此，未来的研究应该专注于生成长时间人体视频。
逼真视频生成。如前所述，遮挡、身体变形、姿势不自然和外观不一致等挑战可能导致视频生成质量低下。解决这些视觉和美学问题，确保生成的人体运动遵循现实世界的物理定律，是一个主要挑战。创建具有高度逼真视觉效果的视频仍然是一个困难的任务。
人体视频扩散效率。扩散模型已成为人体视频生成任务的支柱。然而，视频扩散模型的高训练成本和部署要求带来了重大挑战。降低训练成本和缩小模型规模是关键问题。因此，探索视频扩散模型的效率是未来研究的一个有价值方向。
细粒度可控性。现有的多模态驱动的人体视频生成方法，即使在结合了3D网格和深度图等附加条件信号以及骨架姿势时，仍然缺乏对特定身体部位，特别是手和面部的细粒度控制。未来的研究可以专注于实现这些详细人体区域的细粒度、可控生成。
交互性。除了探索细粒度可控性之外，未来的工作可以进一步研究交互可控性。这将使用户能够通过简单的操作，如点击，来操控元素，如手臂运动或面部表情，最终生成满足用户满意度的人体视频。