元象推出国内首个基于物理的3D动作生成模型MotionGen

图片
www.MotionGen.cn

一句话生成复杂3D动作,效果惊艳!测试期可申请免费试用。

3D内容制作领域,生成逼真的角色动作生成是一个持续挑战,传统方法依赖大量的手K制作,或昂贵动作捕捉设备,效率低、成本高、难以生成一般运动任务或适应复杂场景和交互。

元象XVERSE推出国内首个基于物理的3D动作生成模型MotionGen,创新性融合大模型、物理仿真和强化学习等前沿算法,让用户输入简单文本指令,就能快速生成逼真、流畅、复杂的3D动作,效果惊艳,标志着中国3D AIGC领域的重大突破。

元象MotionGen动作生成模型

现在起,零经验创作者也能轻松上手,创造高质量动画,为动画、游戏、电影和虚拟现实行业带来了极高创作自由度。

作为国内领先的AI+3D公司,元象研发了多款创新AIGC工具,包括广东首批获国家备案的元象大模型、图文多模态大模型、基于3DGS革命性技术的3D场景生成工具、让“虚拟世界活起来”的3D动作自动生成算法等。元象的目标是持续提升认知智能(AI)和感知智能(3D),加快迈向通用人工智能(AGI),让每个人能自由地“定义你的世界”。

3D动作生成效果

通过精准文本解析、真实物理规则解析以及动作和风格上的多样性,模型支持从基础行走到复杂的肢体运动的各类动作创意需求,使3D角色动画制作更加高效。

精准文本理解

能够深入分析复杂的长句指令,根据复杂语义准确生成相应的动作,实现文本到动作的无缝连接,为3D角色提供了广泛的行为选择。
请添加图片描述
例子:一个人用右臂向下拍打某物,然后用右腿向某物踢两下,同时顺时针旋转。

动作丰富性

能够创造出多种类型的动作,覆盖了行走、奔跑、跳跃、踢击、旋转、打击、拉伸和弯腰等,为3D角色提供了广泛的行为选择。
请添加图片描述
例子:不同类型动作的集合。

真实物理仿真

所生成的动作不仅符合描述要求,而且会根据实际物理环境做出自然的调整,动作连贯且符合物理真实(如下图:角色冲刺后自主进行刹车)。
请添加图片描述
例子:一个人弯下腰,摆好起始姿势,然后冲刺出去。

风格多样性

即便是执行同一种动作,模型也能够根据文本中描述的微妙差异来呈现不同的风格变化,这让每个动作都具有独特性和可识别性。

请添加图片描述
例子:不同风格的走路姿势。

MotionGen技术实现

3D动作生成的传统方法存在诸多挑战:运动控制器(motion controller)方法,设定参数后能生成简单动作,但无法生成复杂动作;时空优化(spacetime optimization)方法,通过优化每帧位置和姿态,能生成流畅复杂的动作,但需精心设计目标函数和手动调参,工作量大,动作也无法复用到变化的环境或任务中;运动学(kinematic)方法,能生成高质量的单个动作,但处理不好重力和惯性等物理约束,连续动作会不够真实;基于物理的运动控制方法,对角色的每个关键施加力和力矩,让动作符合物理规律,但无法直接用在传统的生成模型中。

MotionGen工具基于元象自主研发的MotionGenGPT算法,将物理仿真、模仿学习、强化学习、矢量量化变分自编码器、Transformer模型等多种复杂算法进行创新性融合,无需人工设定或调整参数,可直接生成逼真流畅的复杂3D动作,并可应用到任意角色的骨架驱动。

强化学习+物理仿真:让动作自然逼真

使用动捕数据进行动作生成模型的训练是目前业界普遍采用的方法。但原始动捕数据通常会带有抖动和误差等问题,使其不够自然和符合物理规律。我们结合深度强化学习,通过在仿真环境中模仿人类动捕数据的模仿学习[1,2,3,4]可以生成更自然的动作。由于使用动捕数据,该方法无需设计特定的目标函数,而是利用统一的模仿误差作为优化目标。通过在训练过程中引入扰动和改变目标,训练出的控制器可以适应目标motion的变化,呈现自然的过渡动作。

VQ-VAE:提取特征并复用

基于基于矢量量化变分自编码器(VQ-VAE)[5]。近几项研究表明,VQ-VAE提供了一个有效且紧凑的动作表征,许多运动学中的动作生成模型[6,7,8]已经证明了VQ-VAE这种离散但紧凑的隐空间表示适用于在大型数据集上训练,并可应用到各种下游任务中。受此启发,我们将VQ-VAE训练得来的动作表征和GPT结合起来,实现基于物理模拟的文本生成动作。

Transformer:文本与动作的高效连接

在文本生成动作的任务中,Transformer 结构发挥了关键作用。受序列模型近两年发展的启发,我们通过 Transformer 的注意力机制[9],在文本与动作表征之间建立了复杂而精准的联系。通过双 Transformer 设计,模型不仅生成了基础动作编码,还进一步细化了这些编码,捕捉到运动的微妙细节。这种多层次编码方式使生成的动作既符合物理规律,又展现出自然的流动性和多样性,极大提升了文本驱动动作生成的表现力。该设计使 MotionGenGPT 能够从文本中生成多样且高度逼真的运动序列,实现了自然语言与运动控制的无缝连接。

请添加图片描述

MotionGenGPT算法分为两大框架:

第一部分是学习物理正确的动作表征(motion embeddings)。研发团队基于物理模拟的运动控制,采用残差矢量量化变分自编码器(Residual VQ-VAE)结合强化学习,从大量非结构化的人类运动数据集中学习动作表征(motion embeddings)。通过引入离散动作表征,有效捕获多样化的运动技能,为后续文本编码器的接入提供了稳健的先验分布接口。

在这里插入图片描述
第二部分是对于生成模型的应用,算法框架用自注意力机制(Self-attention mechanism)训练了两个 Transformer 模型。第一个模型是掩码 Transformer(Masked Transformer),负责从文本编码推理出基层(base layer)动作编码。第二个模型是残差 Transformer(Residual Transformer),基于基层动作编码生成更精细的残差矢量化动作编码。

这一设计提升了生成动作的细节表现力和与文本指令的匹配度,为文本生成动作任务提供了支持。
在这里插入图片描述

  • 18
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值