TPAMI 2024 | 人体运动生成:一项综述研究

题目:Human Motion Generation: A Survey

人体运动生成:一项综述研究

作者:Wentao Zhu; Xiaoxuan Ma; Dongwoo Ro; Hai Ci; Jinlu Zhang; Jiaxin Shi; Feng Gao; Qi Tian; Yizhou Wang


摘要

人类动作生成旨在生成自然的人姿势序列,并展示出对现实世界应用的巨大潜力。近年来,在运动数据收集技术和生成方法方面取得了实质性进展,为人类动作生成日益增长的兴趣奠定了基础。该领域的大多数研究侧重于基于条件信号生成人类动作,例如文本、音频和场景上下文。尽管近年来取得了显著进展,但由于人类动作的复杂性质及其与条件信号的隐式关系,该任务仍然面临挑战。在这篇综述中,我们提供了人类动作生成的综合文献回顾,据我们所知,这是该领域首次此类综述。我们首先介绍人类运动和生成模型的背景,然后检查三个主流子任务的代表性方法:文本条件、音频条件和场景条件的人类动作生成。此外,我们提供了常用数据集和评估指标的概述。最后,我们讨论了开放问题并概述了潜在的未来研究方向。我们希望这项综述能够为社区提供这一快速发展领域的全面概览,并激发解决突出挑战的新思路。

关键词

  • 人类动作生成
  • 生成模型
  • 深度学习
  • 文献综述

I. 引言

人类基于自身的意图和环境刺激规划和执行身体动作 [1], [2]。作为人工智能的一个重要目标,生成类似于人类的运动模式已经吸引了包括计算机视觉 [3], [4],计算机图形学 [5], [6],多媒体 [7], [8],机器人技术 [9], [10] 和人机交互 [11], [12] 等多个研究社区的日益关注。人类动作生成的目标是生成自然、逼真且多样化的人类动作,这些动作可以用于电影制作、视频游戏、增强现实/虚拟现实、人机交互和数字人等多种应用。

随着深度学习 [17] 的兴起,近年来已经见证了各种生成方法的快速发展,例如自回归模型 [18],变分自编码器 (VAE) [19],归一化流 [20],生成对抗网络 (GAN) [21],以及去噪扩散概率模型 (DDPM) [22]。这些方法在不同的领域都取得了巨大成功,包括文本 [23], [24],图像 [25], [26], [27],视频 [28], [29], [30] 和3D对象 [31], [32]。另一方面,人类建模 [33], [34], [35] 的显著进展使得从视频中提取人类动作 [36], [37], [38] 并构建大规模人类动作数据集 [39], [40], [41], [42] 变得更加容易。因此,在过去的几年中,社区对数据驱动的人类动作生成的兴趣日益增加。

然而,人类动作生成提出了一个复杂的挑战,它超出了将深度生成模型简单应用于人类动作数据集的范围。首先,人类动作高度非线性且具有关节特性,受到物理和生物力学约束的影响。此外,人脑拥有专门的神经机制来感知生物运动 [2], [43],并且对哪怕是轻微不自然的动力学也非常敏感 [44], [45]。因此,生成的动作在自然度、平滑度和可信度方面需要具有高视觉质量。其次,人类动作生成的需求通常包括上下文作为条件信号,例如文本描述、背景音频或周围环境,如图 1 所示。生成的动作不仅本身应该是合理的,还应该与条件信号和谐一致。第三,人类动作作为一种重要的非言语交流媒介,反映了各种潜在因素,如目标、个人风格、社会规范和文化表达 [46]。理想情况下,动作生成模型应该学会捕捉微妙的变化和与条件信号的语义联系。

鉴于快速发展和新兴的挑战,我们提供了这一领域的全面综述,以帮助社区跟踪其进展。在图 2 中,我们总结了近年来人类动作生成方法的发展。本综述的其余部分组织如下。第二节讨论了这项综述的范围。第三节涵盖了任务的基础知识,包括人类动作的表示、动作数据收集技术和各种生成方法。在第四、第五和第六节中,我们分别总结了基于不同条件信号的人类动作生成的现有方法,包括文本、音频和场景。第七节介绍了常用的数据集及其属性。第八节从不同角度总结了评估指标。最后,我们在第九节中得出结论,并为这个领域提供了一些未来的发展方向。

II. SCOPE

本综述专注于基于给定条件信号的人类动作生成。我们主要讨论基于文本、音频和场景条件的生成。一些工作还提出了基于其他人的动作[47]生成人类动作。关于生成目标,我们包括了不同类型的人类动作表示,如2D/3D身体关键点序列、关节旋转和参数化人体模型[33]、[34]。我们不包括有关人类动作完成(例如,动作预测、动作插值)或人类动作编辑(例如,动作重定向、动作风格迁移)的方法。对于这些方法的综述,我们引导读者参考[48]、[49]、[50]、[51]。此外,我们不讨论使用物理仿真环境(例如,角色控制、运动)生成人类动作的工作;请参见[52]对这类方法的总结。本综述作为补充,服务于现有的关注于人类姿态估计[53]、[54]、动作捕捉[55]、[56]和深度生成模型[57]、[58]、[59]的综述论文。

III. 预备知识

在深入探讨人体动作生成的各个方面之前,我们首先介绍人体动作数据的表示方法,然后讨论不同的人体动作数据收集技术及其特点。

A. 动作数据

我们首先介绍人体动作数据的表示方法,然后讨论不同的人体动作数据收集技术及其特性。

1)动作数据表示:人体动作数据可以通过人体姿势随时间序列来有效表示。更具体地说,我们将数据表示分为基于关键点和基于旋转的两种类型。值得注意的是,这两种类型的表示之间可以进行转换。我们可以通过正向运动学(FK)从关节旋转转换到关键点,反之亦然,从关键点到关节旋转可以使用逆向运动学(IK)。

  • 基于关键点的表示:人体由一组关键点表示,这些关键点是与解剖标志相对应的身体上特定点,例如关节或其他重要位置。每个关键点由其在像素或世界坐标系中的2D/3D坐标表示,如图3(a)和(b)所示。然后,动作数据表示为一系列关键点配置随时间变化的序列。基于关键点的表示可以直接从运动捕捉系统中派生,并且具有很好的可解释性。然而,为了将基于关键点的数据用于动画或机器人技术,通常需要解决逆向运动学(IK)问题,并将关键点转换为旋转。

  • 基于旋转的表示:人体姿势也可以通过关节角度来表示,即身体各部分或段相对于其父节点的旋转。大多数研究考虑的是3D关节旋转在SO(3)中的情况,这些旋转可以使用各种格式参数化,例如欧拉角、轴角和四元数。基于关节角度,一些工作[33]、[34]使用统计网格模型来进一步捕捉人体的形状和运动期间发生的变形。一个广泛使用的统计人体模型是Skinned Multi-Person Linear (SMPL)模型[33]。

    SMPL模型由一组姿势和形状参数参数化,这些参数可以用来生成特定姿势和形状的3D人体网格,如图3(d)所示。每个关节的相对旋转定义为相对于其父节点在标准骨架运动树中的旋转,其中K = 24个关节。为了简化,我们将根节点的方向作为姿势参数的一部分包含在我们的公式中。形状参数β ∈ R10指示身体形状配置,例如身高。给定姿势和形状参数,模型相应地变形,并生成包含N = 6890个顶点的三角网格作为M(θ, β) ∈ RN×3。变形过程M(θ, β)相对于姿势θ和形状β参数是可微的。一旦获得最终网格,可以通过预训练的线性回归器将稀疏的3D关键点从顶点映射出来。其他模型,如SMPL-X[34]扩展了SMPL[33]模型,构建了一个综合模型,其中身体、面部和手部被联合建模。除了基于SMPL的线性模型,还探索了其他建模方法,例如GHUM[63]和STAR[64]。为确保简洁性,我们在下面的表格中使用简称“Rot。”来涵盖基于关节的3D旋转及其在统计人体模型(例如SMPL)中的应用,而不会深入区分两者。

2)动作数据收集:收集人体动作数据主要有四种方法:(i) 基于标记的动作捕捉,(ii) 无标记动作捕捉,(iii) 伪标记,以及 (iv) 手动注释。

  • 基于标记的动作捕捉:涉及在被试身体的特定位置放置小型反射标记或惯性测量单元(IMUs),然后跟踪这些标记在3D空间中的移动。如图4(a)所示。然后,这些数据可以用来通过应用正向运动学[39]或使用MoSh[68]帮助的参数化人体网格如SMPL[33]来获取3D关键点。光学标记提供比IMUs更准确的数据,但不够便携,通常用于室内环境,而IMUs可以用于户外设置。

  • 无标记动作捕捉解决方案:无需在被试身上放置标记,就可以从一台或多台摄像机追踪被试身体的移动,并使用计算机视觉算法(例如[69]、[70]、[71])通过利用多视几何来获取3D动作,如图4(b)所示。在捕捉过程中,将设置并同步多个RGB或RGB-D摄像机。这种解决方案的准确性低于基于标记的动作捕捉,但更方便,可以在更广泛的设置中使用。

  • 伪标记人体动作:主要是为了野外捕获的单目RGB图像或视频。这涉及使用现有的人体姿态估计器如OpenPose[72]和VideoPose3D[37]预测2D或3D人体关键点,或者将身体模型拟合到图像证据以生成伪3D网格标签,例如使用SMPLify-X[67]。如图4©所示。然而,伪标记往往比动作捕捉系统有更多的错误。

  • 手动注释:涉及使用动画引擎手动设计人体动作,通常由一群熟练的艺术家完成。图4(d)显示了MikuMikuDance (MMD)的动画引擎接口示例。虽然这种方法可以产生高质量的动画,但成本高、耗时长,且不可扩展。

B. 动作生成方法

我们将人体动作生成方法大致分为两类。第一类方法基于回归模型,使用从输入条件中编码的特征来预测人体动作。它们属于监督学习范式,旨在建立从输入条件到目标动作的直接映射。另一类方法基于生成模型。它们侧重于以无监督的方式建模动作的底层分布(或与条件的联合分布)。典型的深度生成模型包括生成对抗网络(GANs)、变分自编码器(VAEs)、归一化流和去噪扩散概率模型(DDPMs)。除了一般的生成模型,特定任务模型,运动图,也在计算机图形学和动画领域得到了广泛应用。图5展示了不同生成模型的概览。接下来,我们将简要介绍在动作生成中常用的生成模型。

  • 生成对抗网络 (GANs) [21] 是由两组神经网络组成的一类生成模型:生成器G和鉴别器D。生成器从噪声向量z生成合成数据以欺骗鉴别器。相反,鉴别器试图区分真实数据和生成器生成的合成数据。生成器和鉴别器之间的动态可以被视为零和或最小最大游戏。代表它们交互的损失函数可以表述为:

    L D = − E x ∼ p x [ log ⁡ ( D ( x ) ) ] − E z ∼ p z [ log ⁡ ( 1 − D ( G ( z ) ) ) ] L_D = -\mathbb{E}_x\sim p_x[\log(D(x))] - \mathbb{E}_z\sim p_z[\log(1 - D(G(z)))] LD=Expx[log(D(x))]Ezpz[log(1D(G(z)))]

    L G = − E z ∼ p z [ log ⁡ ( D ( G ( z ) ) ) ] L_G = -\mathbb{E}_z\sim p_z[\log(D(G(z)))] LG=Ezpz[log(D(G(z)))]

    随着深度学习的发展,提出了各种基于深度学习的GANs。例如DCGAN [73]、PGGAN[74]和StyleGAN [75]、[76]等模型展示了显著的成就和潜力。这些GANs的进步为生成模型领域,特别是在合成数据的生成方面做出了重要贡献。然而,GANs面临一些挑战,包括训练不稳定性、收敛问题和模式崩溃。

  • 变分自编码器 (VAEs) [19] 是一类提供数据表示稳健解决方案的生成模型,它们通过使用前馈模型,记作 q ϕ ( z ∣ x ) q_\phi(z|x) qϕ(zx),来近似难以处理的后验概率。主要的优化目标是最小化这个近似和原始后验之间的KL散度。VAEs采用证据下界(ELBO)作为损失函数:

    ELBO = E z ∼ q ϕ ( z ∣ x ) log ⁡ ( p θ ( x ∣ z ) ) − DKL ( q ϕ ( z ∣ x ) ∣ ∣ p θ ( z ) ) \text{ELBO} = \mathbb{E}_z\sim q_\phi(z|x)\log(p_\theta(x|z)) - \text{DKL}(q_\phi(z|x)||p_\theta(z)) ELBO=Ezqϕ(zx)log(pθ(xz))DKL(qϕ(zx)∣∣pθ(z))

    VAEs由于 q ϕ ( z ∣ x ) q_\phi(z|x) qϕ(zx)的前馈模式,能够有效地生成和推断新样本。此外,重参数化技巧使得样本生成可微分,并利用基于重建的损失函数,最终提高了训练效率和稳定性。这些优势导致VAEs变体,如CVAE [77]、LVAE [78]和VQ-VAE [79],在各个领域得到广泛应用,并推动了生成模型的进步。然而,VAEs存在后验坍塌的风险,并且可能与GANs相比产生不够锐利的样本。

  • 归一化流:与GANs和VAEs不同,它们隐式地学习数据的概率密度,很难计算确切的可能性。相比之下,归一化流是一类显式学习数据分布 p ( x ) p(x) p(x)的生成模型,并允许可处理的概率密度估计。这些模型采用一系列可逆变换 { f i } 1 N \{f_i\}^N_1 {fi}1N将简单的先验分布 p ( z 0 ) p(z_0) p(z0)(例如,标准高斯)映射到复杂的数据分布 p ( x ) p(x) p(x)

    z i = f i ( z i − 1 ) z_i = f_i(z_{i-1}) zi=fi(zi1)

    x = z N = f N ∘ f N − 1 ∘   ⋯ ∘ f 1 ( z 0 ) x = z_N = f_N \circ f_{N-1} \circ \ \cdots \circ f_1(z_0) x=zN=fNfN1 f1(z0)

    目标分布的密度可以通过应用变量变换定理来获得:

    log ⁡ p ( z i ) = log ⁡ p ( z i − 1 ) − log ⁡ ∣ det ⁡ ∂ f i ∂ z i − 1 ∣ \log p(z_i) = \log p(z_{i-1}) - \log | \det \frac{\partial f_i}{\partial z_{i-1}} | logp(zi)=logp(zi1)logdetzi1fi

    log ⁡ p ( x ) = log ⁡ p ( z 0 ) − ∑ i = 1 N log ⁡ ∣ det ⁡ ∂ f i ∂ z i − 1 ∣ \log p(x) = \log p(z_0) - \sum_{i=1}^{N} \log | \det \frac{\partial f_i}{\partial z_{i-1}} | logp(x)=logp(z0)i=1Nlogdetzi1fi

    其中det表示方阵的行列式。归一化流可以通过最大化观测数据的对数似然来进行典型训练。由于可逆变换,归一化流提供了灵活性、精确的可能性计算和简单的数据采样。然而,它们需要大量的变换来模拟复杂分布,并且可能在计算上昂贵且难以训练。

  • 扩散模型:扩散模型[22]、[80]、[81]定义了一个前向扩散过程,该过程通过T步逐渐向输入数据 x 0 x_0 x0添加少量高斯噪声,生成一系列噪声样本 { x t } 1 T \{x_t\}^T_1 {xt}1T。噪声由 { β t } 1 T \{\beta_t\}^T_1 {βt}1T安排。

    q ( x t ∣ x t − 1 ) = N ( x t ; 1 − β t β t x t − 1 , β t I ) q(x_t|x_{t-1}) = \mathcal{N}(x_t; \frac{1 - \beta_t}{\beta_t}x_{t-1}, \beta_t I) q(xtxt1)=N(xt;βt1βtxt1,βtI)

    q ( x 1 : T ∣ x 0 ) = ∏ t = 1 T q ( x t ∣ x t − 1 ) q(x_1:T|x_0) = \prod_{t=1}^{T} q(x_t|x_{t-1}) q(x1:Tx0)=t=1Tq(xtxt1)

    T → ∞ T \to \infty T时, x T x_T xT实际上是一个高斯分布。如果我们知道了逆向转换 q ( x t − 1 ∣ x t ) q(x_{t-1}|x_t) q(xt1xt),那么我们可以从高斯先验 x t ∼ N ( 0 , I ) x_t \sim \mathcal{N}(0, I) xtN(0,I)中采样,并反向运行扩散过程以获得来自真实数据分布 p ( x 0 ) p(x_0) p(x0)的样本。然而,由于 q ( x t − 1 ∣ x t ) q(x_{t-1}|x_t) q(xt1xt)依赖于整个数据集并且难以估计,我们训练一个神经网络 p θ p_\theta pθ来匹配:

    p θ ( x t − 1 ∣ x t ) = N ( x t − 1 ; μ θ ( x t , t ) , Σ θ ( x t , t ) ) p_\theta(x_{t-1}|x_t) = \mathcal{N}(x_{t-1}; \mu_\theta(x_t, t), \Sigma_\theta(x_t, t)) pθ(xt1xt)=N(xt1;μθ(xt,t),Σθ(xt,t))

    p θ p_\theta pθ通过优化像VAE一样的证据下界(ELBO)来学习。在实践中,扩散模型能够产生高质量的样本,并且能够从稳定的训练中受益。然而,它依赖于反向扩散步骤的长马尔可夫链来生成样本,因此可能在计算上昂贵且比GANs和VAEs慢。

  • 运动图:运动图[82]、[83]、[84]可以数学上表示为有向图 G = ⟨ V , E ⟩ G = \langle V, E \rangle G=V,E,其中V表示节点或顶点的集合,E表示有向边或转换的集合。每个节点 v ∈ V v \in V vV表示一个姿势或关键帧,每条有向边 e ∈ E e \in E eE连接两个顶点 ( v 1 , v 2 ) (v_1, v_2) (v1,v2)并表示相应姿势之间的可行转换。运动图首先基于一系列动作片段构建。为了确保平滑过渡,算法在动作片段中识别兼容的姿势,并用边连接它们,形成一个可以遍历以生成新动作序列的图。在构建运动图之后,可以执行一个随机游走 W = ( v 1 , v 2 , . . . , v n ) W = (v_1, v_2, ..., v_n) W=(v1,v2,...,vn),从初始节点开始,沿着有向边进行。输出的动作序列是对应于遍历节点的姿势的串联,确保连续姿势之间的平滑过渡。同时,可以作为优化目标加入进一步的约束[85]、[86]。这个过程有效地创建了原始数据集中没有明确存在,但与数据的整体特征一致的新动作序列。

IV. 文本条件化的动作生成

文本拥有传递各种类型的动作、速度、方向和目的地的显著能力,无论是明确的还是隐含的。这一特性使得文本成为生成人体动作的一个吸引人的条件。本节旨在阐明文本条件化人体动作生成任务(见表I顶部块),主要可分为两类:动作到动作和文本到动作。

A. 动作到动作

动作到动作的任务专注于基于特定动作类别生成人体动作序列,例如“走路”、“踢”或“扔”。这些动作通常使用一种称为独热编码的技术来表示,简化了动作生成过程。与处理自然语言复杂性的文本到动作任务相比,由于动作类别有限且定义明确,这种表示提供了一个更直接的任务。

Yu等人[88]介绍了SA-GAN,它利用基于自注意力的图卷积网络(GCN)与GAN架构。他们还提出通过使用两个鉴别器——一个基于帧的和另一个基于序列的——来增强生成能力。同样,KineticGAN[92]结合了GAN和GCN的优势,并进一步利用潜在空间解耦和随机变化来生成高质量和多样化的人体动作。Guo等人[7]介绍了Action2Motion,这是一种基于Gated Recurrent Units (GRU)的逐帧VAE架构,用于生成动作序列。同样,ACTOR[90]采用了一个序列级CVAE模型,使用变换器作为生成动作序列的非自回归方法。这种非自回归方法允许一次性生成动作序列。ODMO[94]采用了一种新颖的策略,在低维潜在空间内应用对比学习,从而生成动作序列的层次化嵌入。该模型最初创建动作轨迹,然后生成动作序列,从而有利于轨迹控制。此外,PoseGPT[95]利用自回归变换器将人体动作编码为量化的潜在表示,随后使用类似GPT的模型在这个离散空间内进行下一个动作索引预测。Cervantes等人[98]介绍了一种使用隐式神经表示(INR)和拟合条件高斯混合模型(GMM)的方法。这种方法通过从每个训练序列的变分分布中提取表示来控制序列的长度和动作类别。另外,MDM[14]利用扩散模型在每个扩散步骤中预测样本,而不仅仅是噪声。MLD[101]从潜在扩散模型(LDM)[169]中汲取灵感,利用潜在级别的扩散和VAE进行动作生成。

尽管这些方法在动作到动作领域取得了巨大进步,它们主要擅长生成单一动作的动作。转向生成涉及多个动作的复杂序列仍然是一个挑战,通常需要额外的后处理来连接不同的动作。为此,最近的一项工作,MultiAct[99],利用过去的动作来循环生成长期多动作3D人体动作,并提出了一种新的面向正前方的规范化方法,以确保每个循环步骤中的局部坐标系统与地面几何共享。

B. 文本到动作

文本到动作任务旨在从自然语言描述中生成人体动作序列,利用语言的巨大表现力。与使用有限预定义标签的动作到动作不同,文本到动作有可能根据多样化的文本描述产生更广泛的动作变化。然而,挑战在于准确地将文本的复杂性转换为相应的动作,这需要对语言细微差别和身体运动动态都有深刻的理解。

Text2Action[102]首先利用GAN从给定的自然语言描述中生成各种动作。一些其他方法探索了学习文本和动作的联合嵌入的潜力。例如,JL2P[104]使用基于GRU的文本编码器和动作编码器-解码器将文本映射到相应的人体动作。Ghosh等人[105]进一步开发了一个双流编码器-解码器模型,用于共同嵌入文本和身体动作,同时还采用了GAN结构以生成更自然的动作。Guo等人[3]提出了一种基于VAE的方法,利用长度估计模块和每帧的单词级注意力模块来产生多样化的多长度动作。此外,TEMOS[108]通过带有Transformer层的VAE学习动作和文本的联合分布,从而能够生成多样化的动作序列。TEACH[110]进一步利用过去的动作作为编码器模块的补充输入,这可以生成更自然和连贯的动作序列,特别是在处理多个文本输入序列时。

虽然上述方法关注于基于给定数据集生成动作,但它们在零样本生成方面可能会遇到固有的挑战。为了解决这一挑战,MotionCLIP[107]利用基于Transformer的自编码器,并与预训练的视觉-语言模型CLIP[170]中的运动和图像空间对齐,以增强零样本生成能力。AvatarCLIP[106]也采用了CLIP[170]和基于参考的运动合成方法,从自然语言描述中生成多样化的动画。此外,OOHMG[113]使用文本-姿势生成器获得与文本一致的姿势,然后将这些姿势作为掩蔽提示输入到预训练的生成器中。这允许有效的全动作重建,消除了对成对数据或在线优化的需求。值得注意的是,虽然这些方法使用文本作为输入,但它们只使用主要由动作类别名称组成的短文本。

近年来,人们对VQ-VAE和扩散模型产生了越来越浓厚的兴趣,因为它们在文本到图像生成领域的显著成功。例如,TM2T[109]利用VQ-VAE同时训练文本到动作和动作到文本模块。类似地,T2M-GPT[112]应用类似GPT的变换器架构进行动作序列生成,结合VQ-VAE和指数移动平均(EMA)以及代码重置策略。FLAME[111]提出将动作长度标记、语言池标记、时间步标记和动作嵌入连接起来,然后由扩散模型用于生成可变长度和多样化的动作。MDM[14]和MLD[101],已在动作到动作部分介绍,也应用了前述方法进行文本到动作生成。一些工作进一步探索了在各种条件下的动作生成。例如,MoFusion[116]利用带有1D U-Net风格的变换器模块的扩散模型从自然语言或音频输入生成人体动作序列。此外,Zhou等人[114]介绍了一种框架UDE,该框架将动作序列离散化为潜在代码,将条件映射到统一空间,使用类似GPT的变换器预测量化代码,并通过扩散模型生成动作。

V. 音频条件化的动作生成

除了文本描述之外,基于音频信号的人体动作生成也被探索过。与文本不同,音频信号通常不提供相应的人体动作的明确描述,导致生成任务的自由度更高。同时,生成的人体动作应该在高级语义和低级节奏方面与音频协调一致。本节主要讨论两个日益受到关注的子任务:音乐到舞蹈和语音到手势。音频条件可以由原始音频波形、频谱图和梅尔频率倒谱系数(MFCC)表示。为了增强可控性,一些工作结合了额外的条件,如风格代码或文本转录。请参阅表I中间块对方法的总结。

A. 音乐到舞蹈

音乐到舞蹈生成任务旨在根据输入的音乐序列生成相应的舞蹈动作。一个直接的想法是使用完全监督的回归模型来处理问题,类似于序列到序列的翻译。例如,Tang等人[117]使用LSTM自编码器提取声学特征,并将它们转换为动作特征。AI Choreographer[115]利用全注意力跨模态变换器(FACT),以自回归方式预测N个未来的运动帧。GroupDancer[126]提出了一个额外的舞者协作阶段,以选择活跃的舞者生成多人舞蹈。GDancer[129]引入了全局-局部运动表示,以确保局部连贯性和全局一致性。上述方法采用完全监督学习视角,以最小化预测动作和真实动作之间的距离。然而,对于给定的音乐序列,存在多种合理的舞蹈动作。简单的重建监督并不能充分解决这种一对多的映射关系。

从生成的角度来看,基于GAN的方法[118]、[123]应用对抗学习来规范生成的和真实运动数据流形之间的距离。MNET[4]另外结合了音乐风格代码到生成器,并设计了一个多任务鉴别器来进行每个风格的分类。Transflower[120]利用归一化流来表达有效动作上的复杂概率分布。Bailando[124]首先使用VQ-VAE码本量化3D动作,然后利用演员-评论家生成预训练变换器(GPT)从学习到的潜在代码中组成连贯序列。EDGE[15]基于扩散模型构建,并把任务制定为在音乐条件下的运动去噪问题。另一类方法基于经典运动图框架,将运动生成视为解决预构建图中的最优路径问题。ChoreoMaster[86]提出学习音乐和舞蹈的共享嵌入空间,然后将学习到的嵌入和专家知识整合到基于图的运动合成框架中。PC-Dance[8]通过加入锚点姿势作为额外输入,进一步实现可控的运动生成。ChoreoGraph[125]利用运动段变形来解决节奏对齐问题,减少图中的运动节点和计算成本。

尽管大多数方法使用短音乐舞蹈片段进行训练,但一个重要的用户需求是为整首歌生成持续的舞蹈。然而,长序列生成往往会引入累积误差问题,导致冻结动作。为了克服这一挑战,Huang等人[119]提出了一种课程学习方法,随着训练的进展,逐渐从教师强制方案过渡到自回归方案。Sun等人[127]使用VQ-VAE学习低维流形,有效地去噪运动序列。他们还开发了一个过去-未来运动动态库,为未来运动提供明确的先验。Aristidou等人[128]从三个层次解决这个问题,包括姿势、动作和舞蹈编排,以生成保持特定流派全局结构的长舞蹈。

B. 语音到手势

语音到手势生成(或语音手势合成)任务旨在根据输入的语音音频(有时是文本转录)生成一系列人体手势。在非言语交流中,伴随语音的手势发挥着至关重要的作用,传达说话者的信息和情感,促进亲密感,并增强可信度[171]。现有的研究工作通常关注上半身运动,因为下半身运动往往是静态的。

一些研究从文本转录[136]、[172]、[173]生成语音手势。更多的研究工作集中在语音音频条件上。例如,Ginosar等人[130]收集了一个特定人物的语音视频数据集,并用对抗性损失训练了一个生成模型。Aud2Repr2Pose[11]首先构建了一个运动自编码器,然后训练了一个语音编码器,将语音音频映射到运动表示。StyleGestures[133]适应了MoGlow[174],并进一步对生成动作的风格施加了导演控制。认识到语音不能完全确定手势,Qian等人[140]提出学习一组手势模板向量来模拟生成手势的一般外观。Audio2Gestures[141]将运动表示解耦为音频-动作共享和动作特定信息,以反映音频和动作之间的一对多映射。Habibie等人[137]应用了一个音频编码器和三个独立的解码器分别用于面部、身体和手。DisCo[143]首先将运动序列聚类为内容和节奏段,然后在内容平衡的数据分布上训练。Habibie等人[145]提出首先使用k-最近邻(k-NN)算法从数据库中搜索最可能的运动,然后细化运动。DiffGesture[147]利用带有跨模态变换器网络的扩散模型,并探索无分类器指导以平衡多样性和手势质量。

然而,伴随语音的手势可能存在显著的人际变异性,这是由于个人性格造成的。前述方法没有明确考虑说话者身份,需要为每个说话者单独建模,阻碍了在一般场景中的转移。此外,这些方法限于对文本或语音的建模,未能结合两种模态。受到这些缺陷的启发,Yoon等人[135]提出了一个考虑文本、音频和说话者身份三模态上下文的生成框架。Bhattacharya等人[138]通过情感编码器和MFCC编码器进一步提高了情感表达方面的生成质量。Mix-StAGE[132]为每个说话者学习独特的风格嵌入,并同时为多个说话者生成动作。HA2G[142]采用分层音频学习器提取音频表示,并使用分层姿势推断器将音频和身体部位之间的特征混合。Liu等人[144]开发了一个级联运动网络(CaMN),进一步考虑了基于大规模数据集的面部表情、情感和语义含义。Rhythmic Gesticulator[146]从语言学理论中汲取灵感,明确模拟了语音和手势之间的节奏和语义关系。TalkSHOW[148]使用自动编码器用于面部动作,基于语音音频和说话者身份使用组合VQ-VAE用于身体和手部动作。QPGesture[149]引入了基于量化和阶段引导的运动匹配框架,使用VQ-VAE和Levenshtein距离。LDA[5]在音乐到舞蹈、语音到手势和路径驱动的步态中使用无分类器指导的扩散模型进行风格控制。GestureDiffuCLIP[6]适应了用于语音手势生成的潜在扩散模型,并能够通过风格提示(文本、动作或视频)进行控制。

VI. 场景条件化的动作生成

人体动作是目标导向的,并受周围场景布局的影响,个体在与环境互动时会调整身体动作,同时受到其物理属性的限制。场景到动作生成任务旨在生成与场景内容一致的合理人体动作,这一直是计算机图形学和计算机视觉中的长期问题。本综述主要关注如第二节所讨论的数据驱动的场景条件化动作生成方法,不包括基于物理模拟的方法[175]、[176]、[177]、[178]、[179]。在人体动作生成之前,一些工作还提出了在场景条件下合成静态人体姿势[180]、[181]、[182]、[183]、[184],由于这些也不在本综述范围内,将不再进一步讨论。接下来,我们从两个角度讨论现有方法:场景表示和生成流程。请参阅表I底部块。

A. 场景表示

当前方法利用各种场景表示选项,包括2D图像[154]、[157]、点云[16]、[165]、[167]、[168]、网格[156]、[161]、3D对象[66]、[152]、[160]、[163]、[164]、[166]以及特定目标位置[156]、[162]、[167]、[168]。Cao等人[154]和Wang等人[157]使用RGB图像作为场景约束,通过从图像中提取特征隐式地融合。许多工作[16]、[156]、[161]、[165]、[167]、[168]使用点云或网格来表示场景,例如带有家具的房间,并经常使用PointNet[185]提取场景特征作为条件信号。对于3D对象,配置包括3D位置[152]、[163]、对象类型[152]、[166]以及对象的体素表示[66]、[160]。例如,Corona等人[152]使用其3D边界框和对象类型(例如杯子)作为独热向量来表示对象,并引入有向语义图来共同参数化人体动作和对象。他们使用循环神经网络(RNN)生成与对象交互的人体动作。COUCH[66]旨在生成可控的、接触驱动的人体-椅子交互,并使用占用体素网格来表示椅子,这准确地捕获了人与椅子之间的空间关系。另一个典型的使用3D对象作为场景条件的工作涉及生成全身抓取动作[163]、[164]、[166],其中提供了3D对象位置[163]、[166]或点云[164]。一些工作给出了目标位置[156]、[162]、[167]、[168]来指导动作生成。例如,GAMMA[162]使用强化学习来学习策略网络,以在给定地面上的目标位置时合成合理动作。SceneDiffuser[167]提出了一个通用框架,用于多种3D场景理解任务,并使用扩散模型[22]在给定点云场景和目标的情况下生成合理人体动作。

值得注意的是,大多数方法采用不止一种场景表示作为输入,并且许多方法还将过去的动作或起始姿势[66]、[152]、[154]、[156]、[157]、[158]、[165]、[168]作为输入。还出现了一些使用额外语言指令[16]或动作标签[160]、[161]生成动作的方法。例如,HUMANISE[16]结合语言描述(例如,走向桌子)在场景中生成人体动作。IMoS[166]整合了预期动作指令(例如,喝)以在给定对象位置和类型的情况下生成可控的全身抓取动作。

B. 生成流程

大多数现有方法提出了一个多阶段流程。一个常见的流程是首先预测目标位置[154]、[157]或目标交互锚点[66]、[160]、[161],然后规划路径或轨迹,最后沿着轨迹填充动作[66]、[154]、[157]、[160]、[161]、[165]、[167]。例如,Cao等人[154]提出了一种三阶段运动生成方法,给定2D图像作为场景,首先预测2D目标,然后规划2D和3D路径,最后通过VAE模型沿着路径生成3D动作。与Cao等人[154]类似,Wang等人[157]使用RGB图像作为场景上下文,通过首先生成轨迹,然后引导动作生成来合成人体未来动作。他们进一步增加了鉴别器分支,以强调考虑场景上下文。SAMP[160]也采用了多阶段流程,首先估计目标位置和对象的交互方向,然后给定起始身体姿势规划3D路径,最后使用自回归VAE合理地生成人体动作。与SAMP[160]不同,后者仅对最后一帧中的粗略人-物交互进行建模,Mao等人[165]提出使用每关节接触图提供每个未来帧中每个人体关节的更详细的接触信息,以提高生成质量。Wang等人[161]首先预测多样的人-场景交互锚点,然后将标准A*算法与场景感知随机探索结合起来进行多样化路径规划。最后,使用基于VAE的框架合成锚点姿势并完成动作。GOAL[163]和SAGA[164]旨在生成全身抓取动作,并提出了两步方法,即首先生成结束抓取姿势,然后生成全身动作。与GOAL[163]不同,SAGA[164]进一步使用VAE模型捕获抓取结束姿势的多样性和中间动作。

一些其他工作使用给定的目标位置而不是预测它们。例如,Wang等人[156]提出了一个分层流程,该流程使用VAE模型[19]在每个给定的子目标上生成静态人体,并使用双向LSTM[186]为场景中每对子目标生成中间人体动作。通过连接这些动作片段,合成了长期人体动作。CIRCLE[168]提出的最近一个范例是首先使用线性插值初始化动作,给定起始姿势和目标位置,然后提出一个场景感知运动细化模块来生成最终动作。场景特征从3D点云中提取并融合到细化模块中。

VII. 数据集

在本节中,我们将讨论人体动作生成的数据集。常用的数据集可以根据它们附带的条件信号进行分类。我们分别介绍了具有文本、音频和场景条件信号配对的人体动作数据集。在表II中,我们总结了这些数据集的关键属性,并包括了没有额外条件信号的大型人体动作数据集供参考。

A. 文本-动作数据集

KIT-Motion Language [100] 是一个由动作和语言数据组成的配对数据集。动作数据是通过基于光学标记的系统收集的,而语言数据由描述每个动作数据的注释组成。

UESTC [91] 包括使用 Microsoft Kinect V2 传感器捕获的三种模态的运动数据 - RGB 视频、深度和骨架序列。数据集包括15个动作类别,包括站立和坐姿,以及仅站立的25个类别,总共40个不同的类别。

NTU-RGB+D 120 [87] 是 NTU-RGB+D [93] 数据集的扩展,新增了60个类别和57600个 RGB+D 视频样本。数据集包含120个不同的动作类别,代表日常和健康相关活动的混合。

HumanAct12 [7],源自 PHSPD [188],展示了一个专门收集的3D动作片段集合,被分割成一系列典型的人类行为动作。数据集包括如走路、跑步、坐下和热身等日常动作,并被归类为12个动作类别和34个子类别。

BABEL: Bodies, Action and Behavior with English Labels [96],为 AMASS [40] 综合动作数据集提供文本标签。数据集在两个独特的层次上提供标签:序列级别针对整个序列和帧级别针对单个帧。它涵盖了超过28k个序列和63k个帧,跨越250个动作类别。

HumanML3D [3] 是一个数据集,源自 HumanAct12 [7] 和 AMASS [40] 数据集的组合,它包括每个动作序列对应的三个不同的文本描述。数据集涵盖了日常生活中、体育、杂技和艺术的广泛活动。

B. 音频-动作数据集

音频-动作数据集可以分为受控的和野外的,基于第III-A2节讨论的数据收集技术。受控的音频-动作配对是通过运动捕捉系统(基于标记的、无标记的)或手动注释获得的。相反,野外的音频-动作配对通常是通过搜索和下载具有特定关键词的在线视频,并使用现成的姿态估计器提取人体动作获得的。尽管野外数据提供了更高的动作多样性并且更可扩展,但提取的动作往往不够准确。

1)受控数据集:Tang 等人 [117] 开创性地捕获了4种类型(华尔兹、探戈、恰恰和伦巴)的3D舞蹈和相应的音乐。

  • AIST++ [115] 是从 AIST Dance Video DB [189] 构建的。他们利用多视角视频来估计相机参数、3D关键点和 SMPL 参数。
  • PATS: Pose-Audio-Transcript-Style [120] 数据集由同步的音频和各种舞者及舞蹈风格的录像组成。
  • ShaderMotion [120] 从社交 VR 平台提取舞蹈,其中化身的动作是从参与者那里通过6点跟踪系统重新定位的。
  • Aristidou 等人 [128] 邀请了一组专业舞者进行动作捕捉,具有音乐-舞蹈对的长序列特征。
  • Trinity [134] 是一个会话语音的多模态数据集,包含来自一个演员的4小时音频、动作和视频数据。精确的3D动作是通过基于标记的运动捕捉(MoCap)系统获得的。
  • BEAT: Body-Expression-Audio-Text 数据集 [144] 是一个大规模的语义和情感数据集,用于会话手势合成,具有丰富的帧级情感和语义相关性注释。它还包括面部表情和多语言语音。
  • Chinese Gesture[146] 是一个中文语音手势数据集,允许探索跨语言手势生成。

除了基于 MoCap 的解决方案,一些工作还提出从动画师制作的动画资源中提取音频-动作对。例如,Chen 等人 [86] 和 MMD-ARC [8] 利用来自动漫社区的 MikuMikuDance (MMD) 资源。PhantomDance [123] 聘请了一支由专业舞者指导的经验丰富的动画师团队来创造舞蹈动作。MDC. Multi-Dancer Choreography [126] 数据集专注于团体舞蹈,他们邀请舞者安排动作短语并注释时间舞者激活序列。

2)野外数据集:Lee 等人 [118] 从互联网上收集了带有关键词(芭蕾、尊巴和嘻哈)的舞蹈视频,并使用 OpenPose [72] 提取2D人体关键点。

  • Huang 等人 [119] 解决了长期舞蹈生成数据集的缺乏。它以互联网上的音乐-舞蹈对为特色,每对时长一分钟。
  • AIOZ-GDANCE [129] 收集了野外团体舞蹈视频以及音乐,并使用 SMPLify-X [67] 的时间扩展来拟合跟踪到的2D关键点的 SMPL 序列。他们手动修正了2D关键点和3D动作的错误案例,并使用人工注释多人相对深度。
  • TED-Gesture [136] 是 TED 演讲的伴随语音手势,包含视频和英语转录(以及用于短语的时间戳)。作者使用 OpenPose [72] 提取2D姿势,然后设计了一个神经网络将2D姿势转换为3D姿势。
  • Speech2Gesture [130] 是一个特定于演讲者的手势数据集。它基于未标记的野外电视表演和大学讲座视频。伪真实是通过现成的2D姿势估计算法 [72] 获得的。数据集包含10位具有多样化动作风格的演讲者,包括电视节目主持人、大学讲师和电视福音传道者,因此可以研究特定于人的动觉生成。
  • TED-Gesture++ [135] 在 TED-Gesture [136] 的基础上扩展了更多视频,以同步视频、语音音频和转录的英语演讲文本为特色。3D身体关键点是通过时间3D姿势估计方法 [37] 获得的。
  • PATS: Pose-Audio-Transcript-Style [132] 在 [130] 的基础上扩展到更多的演讲者,包括15位脱口秀主持人、5位讲师、3位YouTuber和2位电视福音传道者。同样,他们使用 OpenPose [72] 提取骨骼关键点。此外,PATS 提供了与动作和音频信号相对应的转录。
  • Speech2Gesture-3D [137] 使用最先进的3D面部 [190]、[191]、身体 [192] 和手部 [193] 姿势估计算法注释了 Speech2Gesture 数据集 [130]。由于分辨率低和3D重建结果差,一些视频和主题从 [130] 中被排除。
  • SHOW: Synchronous Holistic Optimization in the Wild [148] 在 Speech2Gesture 数据集 [130] 上拟合了带有手部动作和面部表情的 SMPL-X [67] 参数化模型。它通过先进的基于回归的方法 [194]、[195]、[196] 改进了 SMPLify-X [67]。

C. 场景-动作数据集

WBHM: Whole-Body Human Motion [153] 包含多个个体和对象的3D全身动作数据,这些数据是通过 Vicon 运动捕捉系统收集的。动作数据不仅考虑了人体主体的动作,还包括了与主体互动的对象的位置和动作。包括41种不同的对象,如楼梯、杯子、食物等,都带有3D模型。

PiGraph: Prototypical interaction Graphs [182] 扫描现实世界的3D场景 [197],并使用 Kinect.v2 在人们与环境互动时捕获他们的骨架。3D场景中的所有对象都手动标注了语义标签。也标注了多种互动。

PROX: Proximal Relationships with Object eXclusion [155] 包含人们与真实室内环境互动的 RGB-D 视频,由 Kinect-One 传感器捕获。对象的姿势也通过附加标记捕获,每个对象都有 CAD 模型。

i3DB [159] 包含几种人类-场景互动,带有注释的对象位置和每个捕获的 RGB 视频的3D人体动作。每个对象都有一个类标签,如椅子或桌子。3D人体动作是从估计的2D动作 [198] 通过手动校正获得的。

GTA-IM: GTA Indoor Motion [154] 是一个大规模的合成数据集,基于 Grand Theft Auto (GTA) 游戏引擎捕获人类-场景互动。数据集配备了 RGB-D 视频、3D 人体姿势、场景实例标签等。请注意 GTA 游戏引擎中的动作来自基于标记的运动捕捉系统。

GRAB: GRasping Actions with Bodies [97] 是一个大规模数据集,捕获了使用 Vicon 运动捕捉系统对3D对象进行的全身抓取的真实世界动作。包括全身人体动作、对象动作、手中操作和接触区域的注释。

HPS: Human POSEitioning System [187]捕获了与大型3D场景(300-1000平方米,高达2500平方米)互动的3D人体,图像由头戴式摄像机捕获,结合了主题在预先扫描的3D场景中的位置和3D姿势。

SAMP: Scene-Aware Motion Prediction [160] 是一个丰富多样的人类-场景互动数据集,通过高分辨率光学标记 MoCap 系统和54台 Vicon 摄像机收集。使用了多种对象,如沙发和扶手椅,在动作捕捉期间。

COUCH [66] 捕获了人们以不同的坐姿和自由动作与椅子互动。数据集是通过 IMUs 和 Kinects 收集的,具有多个主题、真实的椅子几何形状、准确注释的手部接触和 RGB-D 图像。

HUMANISE [16] 是一个大规模和语义丰富的合成数据集,通过将 AMASS 数据集 [199] 中捕获的人体动作序列与 ScanNet 数据集 [200] 中扫描的室内场景对齐。每个动作片段都有关于动作类型和相应交互对象的丰富语义,由语言描述指定。

CIRCLE [168] 收集了在9个场景中的10个小时的右手和左手到达动作,包括在真实世界(使用 Vicon 系统)和 VR 应用中捕获的。包括了各种动作,如爬行、弯腰等。

上述数据集不仅包含场景,还包含人体动作。同时,也有一些数据集仅包含场景,通常用作测试集,如 Matterport3D [13]、Replica [201] 和 ScanNet [200]。

VIII. 评估指标

适当的评估指标对于比较不同方法并推动该领域的发展至关重要。然而,由于合成人体动作的多对一映射特性、人类评估的主观性以及条件信号的高级线索,评估合成人体动作并非易事。在本节中,我们从不同方面总结了常用的评估指标,并讨论了它们的优势和局限性。见表III总结。

A. 保真度

保真度指标旨在评估生成动作的一般质量,包括自然性、平滑度、可信度等。

1)与真实数据比较:在评估生成动作的质量时,将其与真实数据进行比较是最直接的方法。

  • 距离:大多数工作[11]、[16]、[104]、[105]、[108]、[110]、[111]、[114]、[117]、[130]、[135]、[137]、[138]、[140]、[141]、[146]、[152]、[154]、[156]、[158]、[160]、[163]、[164]、[165]、[166]、[167]、[168]使用距离指标来衡量合成动作与真实动作之间的差异。Li等人[123]使用归一化功率谱相似性(NPSS)[202]来评估长期动作合成能力。NPSS在频域中操作,与均方误差(MSE)相比,对帧不对齐不太敏感。同时,归一化方向运动相似性(NDMS)[203]被提出用于衡量运动方向和运动幅度比的相似性,在运动预测领域中使用。
  • 准确性:由于直接的距离计算本身可能无法提供全面的评估,一些工作[130]、[141]进一步计算了正确3D关键点的百分比(PCK)[204],这是姿势估计中流行的评估指标。计算PCK时,确定准确生成的关节比例,如果关节到目标的距离在预定义的阈值内,则认为关节是准确的。

2)自然性:动作质量评估生成动作的自然性,通常通过将生成的动作流形与真实动作流形进行比较来衡量。现有的指标可以分为动作空间和特征空间,基于用于评估的空间。

  • 动作空间:一些方法基于动作空间中的几何统计量来衡量分布距离。例如,一些工作[105]、[108]、[110]、[111]、[114]报告平均方差误差(AVE),计算真实动作和合成动作的方差之间的差异。QPGesture[149]测量速度分布直方图之间的海林距离[205]。一些工作[149]、[158]还比较了关节位置的高阶导数(加速度、急动度)。SAMP[160]和Wang等人[161]基于姿势旋转计算两个分布之间的Fréchet距离(FD)。在运动预测文献中,使用功率谱熵(PSEnt)和KL散度(PSKL)[206]来计算分布距离。SAGA[164]使用PSKL-J[206]、[207]来衡量生成和真实动作的加速度分布,以评估运动平滑度。
  • 特征空间:第二类是通过使用独立的神经网络作为动作特征提取器,在特征空间中计算分布距离。为此,一些工作计算使用辅助动作分类器[3]、[14]、[90]、[94]、[99]、[101]、[109]、[111]、[112]、[116]、[118]、[119]、[166]或自动编码器[5]、[6]、[8]、[86]、[135]、[138]、[140]、[142]、[143]、[144]、[146]、[147]、[149]、[157]的Fréchet Inception Distance (FID)。该指标可以通过将动作特征分解为几何(姿势)和运动学(运动)[5]、[15]、[115]、[120]、[123]、[124]、[125]、[127]两个方面来扩展。这些工作利用设计良好的动作特征提取器[3]、[7]、[208]、[209]、[210]来计算特征距离。Kim等人[4]进一步训练舞蹈流派分类器来提取风格特征并计算相应的FID。除了FID,还有几种其他指标被用来计算生成和真实之间的分布距离,包括Inception Score (IS) [132]、[211]、卡方距离、最大均值差异(MMD) [88]、[92]、均值最大相似度(MMS) [98]、典型相关分析(CCA) [149]、[212]和现实性得分[148]。

尽管这些指标直观,但存在几个关键挑战。它们对自然性的评估高度依赖于数据集的分布和预训练的动作特征提取器的有效性,这可能无法全面反映整体动作质量。例如,EDGE [15] 表明,普遍的FID得分与人类评估不一致,质疑了常见实践的有效性。

3)物理可信度:物理可信度指生成动作与物理规则的一致程度,特别是与脚-地交互相关的:(1) 脚步滑动,(2) 脚-地接触。

  • 脚步滑动:一些工作[163]、[164]、[168]衡量生成动作的脚步滑冰伪影。例如,SAGA [164]定义滑冰为脚跟在地面阈值内且两只脚的脚跟速度超过阈值时。CIRCLE [168]报告了一系列中具有脚步滑动的帧的百分比。
  • 脚-地接触:以前的工作提出了几种不同的度量方法。例如,EDGE [15]报告了物理脚接触得分(PFC)。SAGA [164]报告了一个非碰撞得分,定义为身体网格顶点在地面上方的数量与总顶点数量的比值。HuMoR [158]报告了人物-地面接触的二元分类准确率以及生成动作的脚步穿透频率。GAMMA [162]通过设置地面平面的阈值高度和滑冰速度阈值来计算接触得分。然而,目前缺乏量化物理可信度的标准度量。各种方法可能采用不同的参数选择,甚至设计不同的评估方法。因此,可能需要开发一种更健壮且普遍适用的度量,有效度量物理可信度的程度。

B. 多样性

另一个重要目标是生成多样化的人体动作,避免重复内容。为此,研究人员从不同层次衡量生成结果:单个动作序列内的多样性(动作内多样性)和不同动作序列之间的多样性(动作间多样性)。

1)动作内多样性:长序列动作生成往往会遇到“冻结”问题[119]、[127]。为了评估“非冻结性”和区分静态动作,一些工作测量动作内多样性指标。

  • 变化:例如,一些研究[141]、[143]将生成的动作分成等长度的不重叠的动作片段,并计算它们的平均成对距离。Habibie等人[145]测量了时间位置和速度变化。
  • 冻结率:Sun等人[127]提出计算姿势和平移参数的时间差异,并报告了冻结率。

2)动作间多样性:为了评估生成动作流形的动作间多样性,现有指标可以分为覆盖度和多模态性。

  • 覆盖度:生成动作流形的覆盖度通常是通过首先在验证集上采样N个不同的条件信号,然后计算生成动作的多样性来评估的。例如,[3]、[7]、[8]、[14]、[86]、[90]、[94]、[98]、[99]、[101]、[109]、[112]、[114]、[118]、[119]、[129]、[142]、[147]、[149]报告了模型结果的平均特征距离。类似于FID,特征距离可以细分为几何、运动学[15]、[115]、[124]、[127]和风格[4]。一些工作[66]、[123]、[149]也在动作空间中计算多样性。
  • 多模态性:对于相同的条件信号,概率生成方法可能会生成对应动作的分布。多模态性指标旨在评估分布的变化。常见的做法是首先在验证集上采样N个不同的条件信号,然后为每个条件生成M个动作,并计算每个条件的平均成对距离。现有方法报告了平均特征距离[3]、[7]、[14]、[90]、[94]、[98]、[99]、[101]、[109]、[112]、[114]、[118]、[119]、[148]、[160]、[164]、[166]或平均姿势距离[16]、[141]、[160]、[161]、[167]。ODMO[94]还使用归一化平均姿势距离(n-APD)[213],它由生成动作和真实动作之间的平均姿势距离的APD值比率确定。Yuan等人[213]还利用基于多模态问题本质的平均位移误差(ADE)、最终位移误差(FDE)、多模态ADE(MMADE)和多模态FDE(MMFDE)进行评估。一些工作进一步评估了交互锚点或计划路径级别的生成多样性[161]。

C. 条件一致性

上述指标都集中在生成动作本身的属性上,同时也评估生成动作与相应条件信号之间的一致性至关重要。由于这些评估指标与条件类型高度相关,我们将根据不同任务讨论它们。

1)文本-动作一致性。准确性:在评估动作到动作任务中生成动作与相应文本之间的一致性时,各种现有方法利用识别准确率[7]、[90]、[94]、[98]、[99]、[107]来评估生成结果。该指标基于预训练的动作识别模型,确定生成的动作能否被正确识别为其相应的动作类别。使用识别准确率提供了一个高层次的视图,说明生成样本在给定文本描述的情况下,与预期动作类别的契合度如何。此外,一些方法[3]、[14]、[101]、[109]、[112]、[113]、[114]、[116]使用R-Precision来评估生成动作与其关联描述之间的对应关系。该指标计算并排列特征之间的欧几里得距离,并平均top-k结果的准确性,提供了一种对文本-动作一致性的细粒度度量。

距离:另一方面,一些方法更深入地研究了特征级距离,以衡量文本-动作一致性。例如,多模态距离[3]、[14]、[101]、[109]、[112]量化了给定描述的特征与生成结果中的动作特征之间的差异,为文本和动作之间的特征级对齐提供了直接的度量。类似地,Motion CLIP Score (mCLIP) [111]、[113]使用余弦相似度来捕捉CLIP空间中文本特征和动作特征之间的接近程度,提供了一种量化度量,说明模态之间的对齐程度如何。Flame [111]进一步利用互信息散度(MID)[214]来衡量不同模态之间的对齐。

然而,这些指标显著受到预训练模型的性能以及用于其训练的数据的质量和分布的影响,因此可能在提供客观评估方面存在局限性。

2)音频-动作一致性。节拍:现有方法通常评估生成动作的运动节拍与输入音频节拍的对齐程度。为此,节拍覆盖率和命中率[118]、[119]、[146]表示对齐节拍与所有节拍的比例。Li等人[115]提出了一个使用节拍距离计算的节拍对齐得分,并由[4]、[127]、[129]、[143]、[144]跟进。一些后续工作[5]、[15]、[123]、[124]、[125]、[149]进一步完善了得分定义,强调音乐节拍匹配。此外,研究[142]、[147]建议使用平均角速度而不是位置速度。

语义:为了进一步评估语义一致性,Liu等人[144]提出了语义相关手势回忆(SRGR),它根据真实数据的语义得分对PCK进行加权。他们认为这比L1方差更符合主观人类感知。GestureDiffuCLIP [6]提出了语义得分(SC)来衡量生成动作和文本在其联合嵌入空间中的语义相似性。

目前,大多数评估指标主要关注音频和动作之间的基本联系,常常忽略了更微妙和文化层面的联系,如风格和情感。例如,即使节拍对齐得很好,人类标准可能也不会认为嘻哈音乐和芭蕾舞是和谐的。同样,悲伤语调的演讲伴随着欢快的手势也是如此。不幸的是,现有的音频-动作一致性指标还没有完全解决这些细微差别。

3)场景-动作一致性:我们通过将场景划分为地面和其他对象来区分物理可信度(第VIII-A3节)和场景-动作一致性。场景-动作一致性指的是生成动作与给定场景条件(除地面外)的一致性。主要有两种视角来评估一致性:(1) 非碰撞得分,(2) 人体-场景接触。

非碰撞得分是用于评估生成动作与环境中其他对象或障碍物碰撞的安全性和物理可信度的指标[156]、[157]、[160]、[161]、[163]、[164]、[167]、[168]。例如,Wang等人[157]计算人体场景碰撞作为人体动作(表示为圆柱模型)与给定场景的点云之间的交点。非碰撞比率定义为没有人体场景碰撞的人体动作数量与所有采样动作数量的比率。一些工作[163]、[164]使用身体-场景穿透来衡量这一指标。例如,SAGA [164]测量身体和对象网格之间的相互穿透体积,并报告GAMMA [163]的穿透体积(立方厘米)。

人体-场景接触侧重于接触区域,以评估场景-动作一致性[66]、[156]、[161]、[163]、[164]、[167],并且根据不同的场景条件有不同的定义。SAGA [164]测量身体网格与对象网格最小接触的比率,以评估抓取稳定性。COUCH [66]专注于合成动作如何满足给定接触,并使用平均接触误差(ACE)作为预测手部接触和相应给定接触之间的均方误差,以及平均接触精度(AP@k),如果接触被预测在k厘米以内,则认为接触被正确预测。

还有一些其他指标旨在评估生成动作达到最终目标状态的程度,例如执行时间[160]、角色在几次尝试内达到目标的成功率[162]、身体到目标的距离[16]、[162]、[168]。执行时间[160]是从静止状态过渡到目标动作标签所需的时间。HUMANISE [16]和CIRCLE [168]评估身体到目标的距离,以评估生成动作与对象的交互或达到正确对象的程度。

D. 用户研究

用户研究或主观评估是评估生成动作的重要组成部分,因为它可以揭示可能未被客观指标单独捕获的动作质量方面。首先,人类对生物运动中的小瑕疵非常敏感,如抖动和脚步滑冰[44]、[45]。其次,当前的客观指标无法包含生成动作的微妙文化方面,例如美学和情感影响。现有的方法设计了关注上述一个或多个方面(质量、多样性、一致性)的用户研究,使用偏好或评分。

偏好:许多研究使用成对偏好比较他们生成结果和基线或真实数据的用户研究。具体来说,参与者观察一对人体动作,并回答诸如“哪个动作更好地对应于文本描述?”、“哪种舞蹈更现实,不考虑音乐?”、“哪种舞蹈在风格上更好地与音乐匹配?”或“哪种动作最好地满足场景约束?”等问题。随后,研究人员计算他们方法相对于基线的胜率。基于偏好的用户研究为比较方法提供了直接评估;然而,它们可能不足以比较多个方法。为了解决这个问题,EDGE [15]在所有生成方法之间进行成对比较,并使用Elo评分[215]同时表示它们的生成质量。

评分:另一种普遍的用户研究方法是指导志愿者为生成结果提供明确分数。参与者通常被展示多个动作生成,并被要求为每个动作分配一个分数(例如,从1到5)。一些研究进一步要求为每个方面(质量、多样性、一致性)分别打分。

IX. 结论与未来工作

在这篇综述中,我们提供了对人体动作生成最近进展的全面概述。我们首先检查了这个问题的基本方面,特别关注人体动作和生成方法。随后,我们根据它们的条件信号对研究进行了分类,并详细讨论了每个类别。此外,我们提供了现有数据集资源和常用评估指标的总结。尽管这个领域取得了快速进展,但仍存在重大挑战,需要未来的探索。鉴于此,我们从不同角度概述了几个有希望的未来方向,希望激发人体动作生成研究的新突破。

数据:与图像或视频不同,收集高质量的人体动作数据更加困难和昂贵,这导致了数据量和数据质量之间的权衡。此外,动作表示和条件信号的变异性阻碍了现有数据集的广泛适用性。为了解决这些问题,未来的研究可以探索使用异构数据源,通过弱监督学习方法[216]、[217]或多模态基础模型[107]、[218]整合它们的优势。

语义:值得注意的是,人体动作不仅仅是身体部位的移动;它还是一种重要的非言语交流工具,在文化和社会背景中传达语义信息。捕获人体动作和条件信号(例如高级文本描述、音乐/语音风格和环境可供性)之间的语义关系对于符合人类感知的视觉上吸引人和美学上令人愉悦的结果至关重要。这个领域的一个具体挑战是如何为生成模型配备有关人体动作语义的先验知识。一些研究[6]、[107]采用了具有语言先验的预训练基础模型。我们认为,未来的研究可以更深入地从不同角度探索语义联系,包括数据、方法和评估。

评估:如第八节所讨论的,适当的评估指标对于人体动作至关重要,但也具有挑战性。尽管已经探索了各种客观评估指标,它们都存在固有的局限性,不能取代主观用户研究[15]。未来的工作可以专注于设计更多原则性的客观评估指标,这些指标不仅与人类感知紧密对齐,而且保持可解释性。

可控性:在现实世界的应用中,控制生成内容的能力非常重要,这已经成为图像生成模型中的热门话题[219]、[220]、[221]。一些最近的工作探索了具有联合掩码[15]或风格提示[6]的可控人体动作生成。我们认为,未来的工作可以进一步探索可控性,以创造更用户友好的体验,例如交互式和细粒度编辑[222]。

交互性:人体动作的交互性质很重要,但尚未完全探索。大多数当前的研究主要关注在静态环境中生成单一人体动作。未来的工作可以深入探索人体-人体和人体-环境交互背景下的人体动作生成。潜在探索领域的示例包括为紧密互动的社交群体(例如对话、集体舞蹈等)生成动作,以及在动态、可操作的场景中生成动作[223]、[224]、[225]。

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。

  • 6
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小白学视觉

您的赞赏是我们坚持下去的动力~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值