文 / Google 机器人团队软件工程师 Xingyou (Richard) Song 和 AI 研究员 Yuxiang Yang
精准度更高的模拟器引擎飞速发展,为机器人技术研究人员带来了独特机会,可以生成足够的数据来训练机器人策略,从而完成在现实中的部署。但是,由于模拟域和实际域之间存在细微差异(称为“现实差距”),如何实现训练策略的“从模拟到现实”的迁移仍然是现代机器人技术面临的最大挑战之一。尽管近期的一些学习方法,如模仿学习和离线强化学习等,利用已有的数据来制定策略以解决“现实差距”,但更常见的做法是直接通过改变模拟环境的属性来提供更多数据,这一过程称为域随机化 (Domain Randomization)。
模拟器引擎
https://pybullet.org/wordpress/域随机化
https://arxiv.org/abs/1703.06907
然而,域随机化会以性能为代价来保持稳定性,因为此过程尝试对所有任务进行优化,寻求一个整体表现良好且稳定的策略,但对改进 特定任务 上的策略并未提供足够的空间。模拟与现实环境之间缺乏通用的最优策略,这是在机器人运动应用中经常会遇到的问题,因为在实际应用中常有多种不同的力在发挥作用,如腿部摩擦力、重力和地形差异的影响等。举例来说,假设机器人的位置和平衡具有相同的初始条件,则最佳策略将由表面类型确定——对于在 模拟 环境中遇到的输入为平坦的平面,机器人加快行进速度,而对于 现实世界 中的崎岖路面,机器人应缓慢而小心行走,以防止跌落。
在《通过进化元学习快速适应行走机器人》(Rapidly Adaptable Legged Robots via Evolutionary Meta-Learning) 一文中,我们介绍了一种基于进化策略 (Evolutionary Strategies) 的特殊元学习方法,此方法通常被视为仅在模拟环境下有效,而我们可以按完全无模型的方式高效使用此方法,使得策略能够很好地适应现实环境中的机器人。与之前适应元策略(例如不允许从模拟到现实的应用的标准策略梯度)的方法相比,进化策略 (ES) 可支持机器人快速克服“现实差距”并适应现实环境中的动态变化,而且其中一些变化情况在模拟环境中可能不会出现。这是成功使用 ES 实现机器人适应的第一个实例。
通过进化元学习快速适应行走机器人
https://arxiv.org/abs/2003.01239进化策略
https://openai.com/blog/evolution-strategies/
我们的算法可快速调整行走机器人的策略,使其适应动态变化:在此示例中,电池电压从 16.8 伏降至 10 伏,从而可降低电动机功率,同时,我们也在机器人的侧面放置了一块 500 克的物体,以此使其开始转弯而不是直线行走。此策略仅需 50 个回合即可适应(或 150 秒的实际数据)