读DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills

最新推荐文章于 2024-08-10 07:46:53 发布

OhTuzimao

最新推荐文章于 2024-08-10 07:46:53 发布

阅读量2.6k

点赞数 6

分类专栏： Reinforcement Learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ohtuzimao/article/details/79916651

版权

本文介绍了DeepMimic算法，该算法通过深度强化学习让代理在完成任务的同时，其动作尽可能接近真实的参考动作。算法输入包括角色模型、参考动作和任务奖励函数。状态包括角色的物理描述和动作进度，行动是关节目标角度，奖励由动作模仿和任务完成两部分组成。训练使用PPO算法，网络输入包括状态、目标和高度图信息。文中还探讨了参考状态初始化（RSI）、早期终止（ET）技巧以及多技能融合方法。

摘要由CSDN通过智能技术生成

总的来说这篇文章的目的是训练出一个Agent在能够完成所需要的目标前提下，它的动作更贴近真实（也就是提供的参考动作）。
整个DeepMimic所需要的input分为三部分：一个被称为Character的Agent模型；想要Agent学习的参考动作（reference motion）；想要Agent完成的任务（task）所定义的reward function。训练之后会得到一个可以控制Agent同时满足与参考动作相似且可以完成任务的控制器（controller）。DeepMimic的物理环境用的是（Bullet. 2015. Bullet Physics Library. (2015). http://bulletphysics.org.）

算法部分来说既然是RL，就少不了三个重要组成部分State，Action，Reward:

State：对于Character的各种描述，包括身体各部分的位置，转动角度，角速度等等，坐标系的原点是Character的盆骨（奇妙的说法），x轴方向是脸的朝向；同时还加了一个变量来描述一个motion的进度（例如后空翻动作开始时为0，翻完了结束了为1）。
Action：每个关节所需要转到的方向（目标角度），采样频率为30Hz，之后将角度输入到PD controller（Jie Tan, Karen Liu, and Greg Turk. 2011. Stable Proportional-Derivative Controllers.IEEE Comput. Graph. Appl. 31, 4 (2011), 34–44.）

最低0.47元/天解锁文章

关注

6
点赞
踩
7

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。