![e7fa9f980987f565ed245ca70db10721.png](https://img-blog.csdnimg.cn/img_convert/e7fa9f980987f565ed245ca70db10721.png)
文章来源于微信公众号:TensorFlow
文 / Yuxiang Yang 和 Deepali Jain,AI Residents,Google 机器人团队
原文链接:请点击
文章仅用于学习交流,如有侵权请联系删除
深度强化学习 (Deep Reinforcement Learning,DRL) 领域的最新进展让腿足式机器人能够通过自动化环境交互掌握许多灵活的技能。但是,样本学习效率仍然是许多算法面临的主要瓶颈,研究人员不得不依靠使用异策略数据、模仿动物行为或执行元学习来减少对现实世界经验的需求。此外,现有的此类机器人作品大多仅关注简单的低级技能,例如前进、后退和转弯。要想在现实世界中实现自主操作,机器人仍需要将这些技能结合起来,以产生更高级的行为。
- 模仿动物行为https://ai.googleblog.com/2020/04/exploring-nature-inspired-robot-agility.html
今天,我们将介绍两个项目,目的是解决上述问题,并帮助闭合腿足式机器人的感知 - 驱动回路。
在《腿足式机器人的数据效率强化学习》(Data Efficient Reinforcement Learning for Legged Robots) 中,我们展示了一种高效学习低级运动控制策略的方法。通过将动力学模型拟合到机器人并实时规划动作,机器人可以利用不到 5 分钟的数据来学习多项运动技能。
- 腿足式机器人的数据效率强化学习https://arxiv.org/abs/1907.03613
除了简单行为,我们还在《四足机器人的分层强化学习》(Hierarchical Reinforcement Learning for Quadruped Locomotion) 一文中探讨了自动路径导航。借助专为端到端训练设计的策略架构,机器人学会了将高级规划策略与低级运动控制器相结合,实现了弯曲路径上的自主导航。
- 四足机器人的分层强化学习https://arxiv.org/pdf/1905.08926.pdf
腿足式机器人的数据效率强化学习
RL 中最大的拦路虎就是样本学习效率低下。即便是利用最先进 (SOTA) 的样本效率学习 (Sample-Efficient Learning) 算法,如 Soft Actor