在机器人领域使用元学习探索进化方向

文 / Google 机器人团队软件工程师 Xingyou (Richard) Song 和 AI 研究员 Yuxiang Yang

精准度更高的模拟器引擎飞速发展,为机器人技术研究人员带来了独特机会,可以生成足够的数据来训练机器人策略,从而完成在现实中的部署。但是,由于模拟域和实际域之间存在细微差异(称为“现实差距”),如何实现训练策略的“从模拟到现实”的迁移仍然是现代机器人技术面临的最大挑战之一。尽管近期的一些学习方法,如模仿学习和离线强化学习等,利用已有的数据来制定策略以解决“现实差距”,但更常见的做法是直接通过改变模拟环境的属性来提供更多数据,这一过程称为域随机化 (Domain Randomization)。

  • 模拟器引擎
    https://pybullet.org/wordpress/

  • 域随机化
    https://arxiv.org/abs/1703.06907

然而,域随机化会以性能为代价来保持稳定性,因为此过程尝试对所有任务进行优化,寻求一个整体表现良好且稳定的策略,但对改进 特定任务 上的策略并未提供足够的空间。模拟与现实环境之间缺乏通用的最优策略,这是在机器人运动应用中经常会遇到的问题,因为在实际应用中常有多种不同的力在发挥作用,如腿部摩擦力、重力和地形差异的影响等。举例来说,假设机器人的位置和平衡具有相同的初始条件,则最佳策略将由表面类型确定——对于在 模拟 环境中遇到的输入为平坦的平面,机器人加快行进速度,而对于 现实世界 中的崎岖路面,机器人应缓慢而小心行走,以防止跌落。

在《通过进化元学习快速适应行走机器人》(Rapidly Adaptable Legged Robots via Evolutionary Meta-Learning) 一文中,我们介绍了一种基于进化策略 (Evolutionary Strategies) 的特殊元学习方法,此方法通常被视为仅在模拟环境下有效,而我们可以按完全无模型的方式高效使用此方法,使得策略能够很好地适应现实环境中的机器人。与之前适应元策略(例如不允许从模拟到现实的应用的标准策略梯度)的方法相比,进化策略 (ES) 可支持机器人快速克服“现实差距”并适应现实环境中的动态变化,而且其中一些变化情况在模拟环境中可能不会出现。这是成功使用 ES 实现机器人适应的第一个实例。

  • 通过进化元学习快速适应行走机器人
    https://arxiv.org/abs/2003.01239

  • 进化策略
    https://openai.com/blog/evolution-strategies/

我们的算法可快速调整行走机器人的策略,使其适应动态变化:在此示例中,电池电压从 16.8 伏降至 10 伏,从而可降低电动机功率,同时,我们也在机器人的侧面放置了一块 500 克的物体,以此使其开始转弯而不是直线行走。此策略仅需 50 个回合即可适应(或 150 秒的实际数据)

   

元学习

此研究属于元学习 (Meta Learning) 技术范畴,并在行走机器人上得到证明。在较高层次上,元学习可通过将过去的经验与少量来自输

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值