在机器人领域使用元学习探索进化方向

谷歌开发者

于 2020-05-25 17:34:31 发布

阅读量1.1k

点赞数

本文链接：https://blog.csdn.net/googledevs/article/details/106345439

版权

本文介绍了在机器人技术中，如何通过进化元学习（ES-MAML）算法来快速适应现实环境中的变化，解决模拟到现实的迁移问题。研究发现，使用进化策略而非传统的策略梯度方法，能更有效地让机器人策略适应动态条件，减少现实数据的样本复杂性，从而实现高效适应行走机器人策略。

摘要由CSDN通过智能技术生成

文 / Google 机器人团队软件工程师 Xingyou (Richard) Song 和 AI 研究员 Yuxiang Yang

精准度更高的模拟器引擎飞速发展，为机器人技术研究人员带来了独特机会，可以生成足够的数据来训练机器人策略，从而完成在现实中的部署。但是，由于模拟域和实际域之间存在细微差异（称为“现实差距”），如何实现训练策略的“从模拟到现实”的迁移仍然是现代机器人技术面临的最大挑战之一。尽管近期的一些学习方法，如模仿学习和离线强化学习等，利用已有的数据来制定策略以解决“现实差距”，但更常见的做法是直接通过改变模拟环境的属性来提供更多数据，这一过程称为域随机化 (Domain Randomization)。

模拟器引擎
https://pybullet.org/wordpress/
域随机化
https://arxiv.org/abs/1703.06907

然而，域随机化会以性能为代价来保持稳定性，因为此过程尝试对所有任务进行优化，寻求一个整体表现良好且稳定的策略，但对改进 特定任务 上的策略并未提供足够的空间。模拟与现实环境之间缺乏通用的最优策略，这是在机器人运动应用中经常会遇到的问题，因为在实际应用中常有多种不同的力在发挥作用，如腿部摩擦力、重力和地形差异的影响等。举例来说，假设机器人的位置和平衡具有相同的初始条件，则最佳策略将由表面类型确定——对于在模拟环境中遇到的输入为平坦的平面，机器人加快行进速度，而对于 现实世界 中的崎岖路面，机器人应缓慢而小心行走，以防止跌落。

在《通过进化元学习快速适应行走机器人》(Rapidly Adaptable Legged Robots via Evolutionary Meta-Learning) 一文中，我们介绍了一种基于进化策略 (Evolutionary Strategies) 的特殊元学习方法，此方法通常被视为仅在模拟环境下有效，而我们可以按完全无模型的方式高效使用此方法，使得策略能够很好地适应现实环境中的机器人。与之前适应元策略（例如不允许从模拟到现实的应用的标准策略梯度）的方法相比，进化策略 (ES) 可支持机器人快速克服“现实差距”并适应现实环境中的动态变化，而且其中一些变化情况在模拟环境中可能不会出现。这是成功使用 ES 实现机器人适应的第一个实例。