AMP Adversarial Motion Priors for Stylized Physics-动作生成算法

AMP: Adversarial Motion Priors for Stylized Physics-Based Character Control

来源: SigGraph2021
研究方向: 动作生成
链接: https://arxiv.org/abs/2104.02180

文章动机

动作生成的总体方案可以分为kinematic methods和physics-based的方法。

  • kinematic methods基本上不会使用显式的运动方程与生成动作,相反会借助大量的motion clip去进行学习。给定一个动作库之后,kinematic-based methods通常会学习如何从动作库中挑选motion clip来进行动作合成,这样的一种方案使得kinematic-based method往往能够得到大量的可以做的很复杂的动作,但是缺点是kinematic-based method在一些复杂环境中的动作生成不是很好,对于陌生环境的适应性比较差。
  • physics-based的方法比较好的一点是复杂环境下无法手机数据时,可以通过physics-based的方法来与环境进行一定程度的交互,而提高模型的动作生成质量。

这篇文章是想借助动作数据和物理环境,融合两种方案的优势。数据驱动的kinematic method可以生成细腻且高质量的动作,因此可以进行low-level的控制,而physics-based method可以在与环境交互的过程中完成某项任务,因此可以借助DRL算法来规划agent的路径,一旦把两者结合起来,就可以进行low level的动作控制和high-level的路径规划,保证机器人向目标走去时保持真实的motion。

方案实施

在这里插入图片描述
在这里插入图片描述

上图中r_t^S是通过GAN判别生成的动作和reference motion的可信度,把这样的损失转换为强化学习过程中的reward,而r_t^G则是衡量机器人有没有到目标位置的reward。通过实现的进行交互,得到大批量的数据后,到replay buffer中供PPO算法学习动作策略用。

方案可行性

很可行,也有开源代码,将DRL和GAN进行结合已经不是第一篇了,这个思路很直观,但训练难度肯定大,出乎意料的是,作者的实现版本还比较成功。

结论

AMP算法还是不够稳定,在扩大数据集规模,或者增加动作类别时,容易让GAN网络陷入模式坍塌中,及经过motion prior精细控制的动作可能样式不会太丰富,有可能只会走这一种类别的步态。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值