SIGGRAPH`24 | 毫米级接近真实动作生成！LGTM：文本驱动！(深大&快手&字节)

最新推荐文章于 2025-05-09 18:39:20 发布

AI生成未来

最新推荐文章于 2025-05-09 18:39:20 发布

阅读量2.1k

点赞数 22

分类专栏： AIGC 文章标签： AIGC 人工智能 LLM AI视频 chatgpt

本文链接：https://blog.csdn.net/AIGCer/article/details/138783791

版权

AIGC 专栏收录该内容

149 篇文章

订阅专栏

论文链接：https://arxiv.org/pdf/2405.03485
代码&数据集链接：https://github.com/L-Sun/LGTM

在本文中，介绍了LGTM，一种新颖的用于文本到动作生成的局部到全局pipeline。LGTM基于扩散的架构，旨在解决将文本描述准确转换为计算机动画中语义连贯的人体动作的挑战。具体而言，传统方法通常难以处理语义差异，特别是在将特定动作与正确的身体部位对齐方面存在困难。 为解决这个问题，本文提出了一个两阶段pipeline来克服这个挑战：首先利用大语言模型（LLMs）将全局动作描述分解为部分特定的描述，然后由独立的身体部位动作编码器处理，以确保精确的局部语义对齐。最后，基于注意力的全身优化器对动作生成结果进行优化，并确保整体一致性。本文的实验表明，LGTM在生成局部准确、语义对齐的人体动作方面取得了显著改进，标志着文本到动作应用的显着进步。

介绍

在本文中解决了文本到动作的问题，即，给定一个角色动作的文本描述，本文旨在自动生成合理且逼真的3D人体动作。 成功自动化此过程对于各种下游应用具有重要潜力，包括为增强和虚拟现实环境创建内容，推动机器人技术的进步，以及改进人机交互。

作为自然语言处理、机器学习和计算机图形学交汇处的长期挑战，文本到动作生成近年来受到了广泛关注。扩散模型的出现，正如各种研究所强调的，推动了这一领域的显着进步。尽管取得了这些进展，从文本描述生成既在局部语义上准确又在全局上连贯的动作仍然是一个巨大的障碍。当前方法通常难以有效捕捉嵌入在动作描述中的微妙的局部语义，并且难以生成与这些语义线索准确对齐的动作。

特别是，在文本到动作合成中，现有方法经常遇到诸如局部语义泄露和缺失元素等问题。例如，当输入描述为“一个男人用他的左腿踢东西”时，这些方法可能错误地生成与“右踢”相对应的动作。类似地，涉及需要多个身体部位协调的复杂动作的prompt经常会导致某些部分的动作被省略。本文的观察揭示了这些方法中的两个主要缺点。

首先，大多数现有技术都使用单个全局文本描述符来描述所有局部身体动作。这种方法要求网络从统一的全局文本来源中学习局部动作语义与相应身体部位之间的关联。这个过程在文本内容在不同身体部位之间相似的情况下尤为困难，导致难以区分每个部分的具体动作。其次，这些方法中使用的文本编码器在编码与动作相关的文本方面的效果有限。这一限制在最近的研究中详细说明了不同动作文本之间的高特征相似性。编码文本特征的同质性进一步加剧了网络在区分和准确表示局部文本语义中微妙变化方面的困难。

为此，本文提出了一种新颖的基于扩散的文本到动作生成架构，称为LGTM，它擅长生成既符合文本描述又在局部语义准确性方面精确的动作。LGTM通过一种从局部到全局的方法进行操作，结构上分为两个主要阶段。第一阶段实施了一种有效的策略来解决局部语义准确性问题。在这里，本文引入了一个分区模块，利用大语言模型（LLMs）将全局动作描述分解为针对每个身体部位具体的描述。随后，专用的身体部分动作编码器独立处理这些特定于各部位的描述。这种专注的方法通过减少冗余信息和防止语义泄漏有效地避免了局部语义不准确性，从而保持对相关局部语义的清晰关注。

然而，由于每个身体部分动作编码器都是独立工作的，没有意识到其他部分的运动，因此必须同步这些单独的动作，以避免整体协调问题。为了解决这个问题，LGTM的第二阶段引入了基于注意力的全身优化器。该组件专门设计用于促进不同身体部位之间的信息整合，确保整体动作不仅在局部上精确，而且在全局上连贯流畅。

为评估LGTM的有效性，本文进一步进行了文本驱动的动作生成实验，并提供了定量和定性结果。本文的实验表明，本文提出的LGTM可以生成更符合输入文本的忠实动作，无论在局部还是全局上，并且优于现有技术方法。

总结一下，本文的贡献如下：

本文提出了LGTM，一种新颖的基于扩散的架构，可以将文本描述转化为准确和连贯的人体动作，相比之前的文本到动作方法有了显著的改进。
LGTM引入了一个独特的分区模块，利用LLMs将复杂的动作描述分解为特定于每个部位的描述。这显著提高了动作生成中的局部语义准确性。
本文的实验证明了独立的身体部位运动编码器与基于注意力的全身优化器的有效集成，确保了生成动作的局部精度和全局一致性，为文本到动作生成提供了有希望的改进。

方法

在本节中，本文深入探讨了 LGTM 的具体细节，如下图 2 所示。LGTM 结构化为一个从局部到全局的生成框架，首先创建局部的、部位级别的动作，然后通过全局融合和优化过程生成最终的全身动作。在其核心，LGTM 通过将全身文本和动作空间细分为部位特定的子空间来操作。这种细分由一个专用的分区模块巧妙处理。

对于每个子空间，本文开发了专门的部位动作编码器。这些编码器被训练成独立学习部位级别动作和部位级别文本之间的一系列映射关系。这种策略有效地缓解了以前方法中出现的局部语义映射不正确的问题。在进行局部编码之后，LGTM 引入了一个全身动作优化器，建立各个子空间之间的关联，确保最终全身动作的一致性和连贯性。下面，本文详细解释了 LGTM 中每个模块的功能和细节。

初步：人体运动扩散模型

输入表示。 将本文方法的输入对定义为 (M, T)，其中 M 表示全身动作数据，T 表示原始的全身文本描述。具体来说，本文使用 [Guo et al. 2022a] 提出的 HumanML3D 表示作为本文的动作数据表示，该表示是从 SMPL 动作数据计算得到的，包括了有助于网络训练的冗余动作特征。一个全身动作数据 M 包含 F 帧和 J = 22 个关节。具体来说，本文表示，其中和分别表示根关节绕 y 轴的角速度、在 x-z 平面上的线性速度和高度，和分别表示除根关节之外所有关节的局部位置和 6D 旋转，表示所有关节的局部速度，表示脚的接触信号。

扩散模型。 本文的方法建立在一个文本条件的扩散模型之上。在训练阶段，该模型根据马尔可夫过程向干净的动作 M 添加噪声，并训练一个网络来预测添加的噪声，使用 L2 损失。在采样阶段，该模型逐渐从纯粹被加噪声的动作中减少噪声，并使用 DDIM作为本文的扩散模型来加速采样过程。更多细节请参阅补充材料。

划分模块

划分模块旨在为每个身体部位的部分运动编码器注入局部语义。在实践中，输入对 (M, T) 被划分为六个部分，包括头部、左臂、右臂、躯干、左腿和右腿。

运动 M 被分解如下：

下标表示特征来自何处。例如，包括右腿所有关节的局部位置。

对于动作描述 𝑇，本文利用LLM的知识推理能力将其分解为六个部分：，使用精心设计的prompt。 prompt包括三个部分：任务定义、输出要求和一些输出示例。任务定义指示LLM提取每个动作部分的主要描述。输出要求告诉LLM本文需要结构化输出，如JSON格式、身体部位命名等。然后，本文采用了少量样本的方法来指导LLM生成所需的输出。有关本文prompt的更多详细信息，请参阅原文补充材料。分解的描述示例如下表1所示。

部分动作编码器

部分动作编码器旨在独立地从部分级别的输入对中学习局部语义映射。由于每个编码器仅从其对应的部分级别输入对获取信息，并且无法访问其他身体部位的信息，因此语义泄漏的问题得到了有效缓解。本文将部分级别的编码过程表示如下：

每个部分动作编码器，，由三个组件组成：一个线性层、一个文本编码器和一个Conformer。线性层的目标是将潜在维度的大小与文本编码器的大小对齐。本文使用了六个不同的冻结的部分级别TMR文本编码器，每个对应于六个身体部位中的一个，它们分别在部分级别的动作-文本对Mpart,𝑇part上进行了预训练。由于TMR模型仅在动作描述和动作数据上进行训练，而不是在大型视觉数据集上进行训练，因此由TMR编码的与动作相关的文本embedding更容易被网络区分，而不是由CLIP编码的文本。投影的动作和文本 embedding然后被Conformer融合并处理。Conformer将卷积块结合到Transformer架构中，以更好地捕获时间局部特征。此外，先前的工作 [Alexanderson et al. 2023] 在音乐到舞蹈任务上显示了Conformer的成功。

全身运动优化

由于每个部分的动作和文本都是独立编码为，因此网络将忽略不同身体部位之间的相关性。因此，本文提出全身动作优化器𝐺通过根据全身文本信息调整每个身体部位的运动来建立相关性。

具体来说，本文首先将所有身体部分的潜在编码连接成一个全身潜在编码，其形状为 (𝐹, 𝑆) = (𝐹, 6 × 128)，然后与通过冻结全身级别的 TMR 文本编码器编码的全局文本embedding进行融合。接下来，本文使用一个注意力编码器来计算一个增量，用于调整潜在编码中的每个部分。注意力编码器是实际进行时空信息交换的地方。它由多个注意力编码器块组成，每个块包含一个多头注意力块和一个前馈层，如下图3所示。由于潜在编码在时间维度 𝐹 上由多头注意力块处理，而前馈层 (FFN) 在空间维度 𝑆 上运行，因此每个身体部分的潜在编码可以持续交换时空信息。接下来，本文使用 SmoothNet来减少抖动，其中包含一个具有残差连接的堆叠 MLP，并在时间维度上运行，作为潜在空间中的低通滤波器。

最后，本文将潜在代码投影到原始特征维度，并得到干净的动作。全身动作优化器可以表述为:

结果

在本节中，展示了由本文的方法生成的动作，并与其他文本驱动的动作生成方法进行了比较分析。此外，本文进行了几项消融研究，以突显本文框架中各个组件的贡献。

实施细节

part-level的动作描述是由ChatGPT生成的（gpt3.5-turbo-1106）模型。本文的模型使用AdamW优化器进行训练，采用快速温和余弦衰减的学习率衰减策略。初始学习率为，batch size为64。扩散步数为1K。本文的模型在HumanML3D数据集上的训练时间约为在3个NVIDIA RTX 4090 GPU上进行8小时。

定性结果

下图4显示了本文方法生成的几个示例结果。本文可以看到，本文的方法能够生成具有精确局部语义的动作，例如身体部位语义对应和动作时间顺序，因为本文的方法独立地将局部语义信息注入到相应的部位中，而整体动作优化器在空间和时间域中构建了正确的身体部位之间的关系。例如，“一个人向前倾身然后跳得很高”的结果显示了角色确实按正确的顺序倾身然后跳跃。而“一个人用手锁住他的脸，然后做一些舞蹈动作，但没有用腿” 的结果表明角色在跳舞时保持了正确的手和脸之间的空间关系。而“一个人用右脚做空中踢腿”的结果显示角色确实用正确的身体部位进行踢腿。

本文还提供了与两种基准方法（包括MDM和 MLD）的视觉比较。下图5显示了本文的方法能够生成更具语义匹配的动作。在第一行中，角色在本文的结果中可以用两只手拿东西，而在MDM中只能用左手。在第二行中，角色在本文的结果中只用左脚正确跳跃，而在MDM中双脚跳跃，而在MLD中不跳跃。在第三行中，MDM的结果包含奇怪的姿势，而MLD不包含“拍手”，但本文的结果更正确。最后一行显示，对于更复杂的文本输入，本文的方法能够生成比这两种基线方法更语义准确的结果。

定量评价

评估指标。 为了定量评估本文的方法，本文使用了[Guo等人，2022a]提出的指标，包括：

（1）Fréchet Inception Distance（FID），评估生成的动作质量与真实动作分布之间的差异；
（2）多样性（DIV），计算生成动作的方差；
（3）R Precision，计算生成动作与相应文本描述之间的前n匹配精度；
（4）多模态距离（MM Dist），计算配对的动作和文本之间的距离；
（5）部分级别多模态相似度（PMM Sim），计算部分级别配对的动作和文本之间的归一化余弦相似度。

这些指标是在潜在空间中使用T2M的文本编码器和动作编码器计算的，就像之前的工作一样。由于本文的方法提供了对生成动作的详细控制，本文还使用部分级别多模态相似度（PMM Sim）将本文的方法与基线方法进行了比较，通过训练部分级别文本编码器和动作编码器进行对比学习，这与TMR相似，本文认为这样做可以使潜在空间中的动作样本更加分散，使得不同的动作更容易被区分。具体来说，本文在TMR潜在空间中计算PMM Sim如下：

在这里，和分别通过TMR编码器对部分级别的动作和文本进行编码获得。虽然本文主要关注语义可控生成，但本文也评估了文本到动作合成中的常见伪影。本文使用[Yuan等人，2022]介绍的三个具体指标对生成的动作进行评估：滑动、穿透和浮动。

比较结果。 全身动作的比较结果显示在下表2中，部分级别动作的比较结果显示在下表3中。下表2中的FID和DIV指标表明本文的方法生成了更加真实和多样化的动作。R Precision 和 MM Dist 表明本文的方法能够生成更好的全局语义匹配的动作。下表3还表明本文的方法实现了最佳的局部语义匹配，性能非常接近真实数据。本文的局部到全局设计独立地将局部语义信息注入到身体部位，并与全局语义一起进行细化，这为网络提供了更准确和结构化的语义信息，有助于生成，并因此实现更高的质量。对于伪影评估，如下表4所示，本文可以看到每种方法在毫米尺度上表现非常接近真实数据（Real行）。伪影可以归因于数据集固有的质量差异。

消融实验

本文设计了两个主要实验来评估本文方法的不同组成部分的影响。第一个实验研究了不同文本编码器对动作质量的影响。第二个实验评估了全身动作优化器对本文方法生成的动作质量的影响。

文本编码器的重要性。 本文通过用CLIP替换本文预训练的文本编码器进行测试，展示了本文使用的TMR文本编码器可以捕捉更详细的语义。此外，本文还呈现了使用CLIP或TMR文本编码器获得的MDM的结果，以进行比较。

下表5和下表6分别评估了全身和部分级别的动作质量。总体而言，本文观察到使用TMR文本编码器通常会产生比使用CLIP更好的结果，无论是对于本文的方法还是MDM，以及无论是对于局部还是全局质量。当将本文的方法与使用相同文本编码器的MDM进行比较时，本文的方法通常表现更好，进一步证明了本文局部到全局设计的优越性。

Conformer的影响。 将Transformer替换为Conformer是为了提高部分动作编码器的动作质量。为了验证改进，本文比较了两种配置的全局质量指标。从下表7和下表8中，本文观察到使用Conformer的LGTM可以获得比使用Transformer更好的质量和语义匹配性能。这种改进可以归因于Conformer的卷积模块，它比自注意力更好地捕捉了局部特征。

全身动作优化器的重要性。 本文的全身动作优化器的目标是建立不同身体部位运动之间的相关性，并改善全身运动的协调性。为了验证其效果，本文将其与“w/o opt”设置进行比较，其中本文去除了本文全身优化器的关键组件，即注意力编码器。从下表9和下表10中可以看出，没有优化器，局部动作质量下降，全身动作质量也明显较差；参见下图6中的一个示例结果。没有全身动作优化器，角色的两只脚在运动过程中无法很好地协调步伐交替，因为缺乏信息交换。

结论

本文提出了LGTM用于文本到动作的生成，这显著提高了从文本描述中衍生的3D人体动作的准确性和连贯性。通过将大语言模型与局部到全局的生成框架结合起来，本文的方法有效地解决了语义映射和动作连贯性的关键挑战。

限制和未来工作。 由于本文使用ChatGPT进行动作描述分解，因此局部语义映射取决于ChatGPT的推理能力。不正确的分解或映射可能导致不令人满意的动作生成结果。例如，在生成“高尔夫挥杆”动作时，这需要高水平和全身协调，LGTM会遇到困难，因为ChatGPT识别到右手挥动高尔夫球杆，但未能将这种推理分解为每个身体部位的一系列低级动作。结果是网络生成了一个不可信的动作，如下图7所示。此外，在数据集中的含糊不清的文本可能会在训练过程中使网络混淆。例如，短语“一个人执行动作A和动作B”可能暗示这些动作同时发生或顺序发生，导致输出可能与用户期望不一致。通过提供更详细的时间描述，可以缓解这个问题。此外，由于数据集中样本长度有限，本文当前的框架无法始终生成高质量的长期动作。对于未来的工作，一个有前途的方向是将本文的局部到全局的思想与那些基于VQ-VAE的方法（如TM2T和MotionGPT）结合起来，通过构建部分级别的动作片段作为动作token，进行更详细的动作生成，以获得不同部分级别的动作组合。