读DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills

本文介绍了DeepMimic算法,该算法通过深度强化学习让代理在完成任务的同时,其动作尽可能接近真实的参考动作。算法输入包括角色模型、参考动作和任务奖励函数。状态包括角色的物理描述和动作进度,行动是关节目标角度,奖励由动作模仿和任务完成两部分组成。训练使用PPO算法,网络输入包括状态、目标和高度图信息。文中还探讨了参考状态初始化(RSI)、早期终止(ET)技巧以及多技能融合方法。
摘要由CSDN通过智能技术生成

总的来说这篇文章的目的是训练出一个Agent在能够完成所需要的目标前提下,它的动作更贴近真实(也就是提供的参考动作)。
整个DeepMimic所需要的input分为三部分:一个被称为Character的Agent模型;想要Agent学习的参考动作(reference motion);想要Agent完成的任务(task)所定义的reward function。训练之后会得到一个可以控制Agent同时满足与参考动作相似且可以完成任务的控制器(controller)。DeepMimic的物理环境用的是(Bullet. 2015. Bullet Physics Library. (2015). http://bulletphysics.org.)


算法部分来说既然是RL,就少不了三个重要组成部分State,Action,Reward:

  • State:对于Character的各种描述,包括身体各部分的位置,转动角度,角速度等等,坐标系的原点是Character的盆骨(奇妙的说法),x轴方向是脸的朝向;同时还加了一个变量来描述一个motion的进度(例如后空翻动作开始时为0,翻完了结束了为1)。
  • Action:每个关节所需要转到的方向(目标角度),采样频率为30Hz,之后将角度输入到PD controller(Jie Tan, Karen Liu, and Greg Turk. 2011. Stable Proportional-Derivative Controllers.IEEE Comput. Graph. Appl. 31, 4 (2011), 34–44.)
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值