最新综述 | 强化学习中从仿真器到现实环境的迁移

本文是关于强化学习中sim2real领域的工作综述,探讨了从模拟环境到现实环境迁移策略的问题,包括domain adaptation、progressive network、inverse dynamic model和domain randomization等方法。通过学习公共的隐含表示空间和优化算法,旨在解决模拟与现实之间的现实差距(reality gap)。文中列举了多篇代表性论文,并分析了它们的核心思想和应用案例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

©PaperWeekly 原创 · 作者|李文浩

学校|华东师范大学博士生

研究方向|强化学习

最近 survey 了一下 sim2real 领域最近的相关工作,先整理个第一版(共有七篇论文)的总结。

整篇总结分为以下四个部分:

  • 问题的定义以及工作的出发点

  • 方法的分类

  • 具体算法

  • 一个实例

问题的定义以及工作的出发点

sim2real 的全称是 simulation to reality,是强化学习的一个分支,同时也属于 transfer learning 的一种。主要解决的问题是机器人领域中,直接让机器人或者机械臂在现实环境中与环境进行交互、采样时,会出现以下两个比较严重的问题:

  • 采样效率太低(在用强化学习算法解决机器人相关问题时,所需要的样本量一般会达到上千万,在现实环境中采集如此数量级的样本要耗费几个月的时间)

  • 安全问题 (由于强化学习需要通过智能体在环境中进行大范围的随机采样来进行试错,因而在某些时刻其做出的行为可能会损伤机器人自身,例如手臂转动角度过大或者避障任务中由于碰撞造成的不可逆损伤等等;也可能会损害周围的环境甚至生物)

但是如果我们在模拟器中进行强化学习算法的训练,以上两个问题均可迎刃而解。但是,这里同样会存在一个问题,由于模拟器对于物理环境的建模都是存在误差的,因而在模拟环境中学习到的最优策略是否可以直接在现实环境中应用呢?

答案往往是否定的,我们把这个问题称为 “reality gap”。而 sim2real 的工作就是去尝试解决这个问题。

这里值得注意的一点是,虽然这个方向叫做 sim2real,其实其中的所有的算法都可以直接应用在 sim2sim,real2real 等的任务中。

方法的分类

sim2real 中的典型工作大致可以分为以下五类:

  • Domain Adaption 主要是通过学习一个模拟环境以及现实环境共同的状态到隐变量空间的映射,在模拟环境中,使用映射后的状态空间进行算法的训练;因而在迁移到现实环境中时,同样将状态映射到隐含空间后,就可以直接应用在模拟环境训练好的模型了。

  • Progressive Network 利用一类特殊的 Progressive Neural Network 来进行 sim2real。其主要思想类似于 cumulative learning,从简单任务逐步过渡到复杂任务(这里可以认为模拟器中的任务总是要比现实任务简单的)。

  • Inverse Dynamic Model 通过在现实环境中学习一个逆转移概率矩阵来直接在现实环境中应用模拟环境中训练好的模型。

  • Domain Randomization 对模拟环境中的视觉信息或者物理参数进行随机化,例如对于避障任务,智能体在一个墙壁颜色、地板颜色等等或者摩擦力、大气压强会随机变化的模拟环境中进行学习。

具体算法

这一部分将对以下六篇论文进行详细的说明:

[1] Towards Adapting Deep Visuomotor Representations from Simulated to Real Environments [arXiv 2015] Eric Tzeng, Coline Devin, Judy Hoffman, Chelsea Finn, Xingchao Peng, Sergey Levine, Kate Saenko, Trevor Darrell

[2] Learning Invariant Feature Spaces to Transfer Skills with Reinforcement Learning [arXiv 2017] Abhishek Gupta, Coline Devin, YuXuan Liu, Pieter Abbeel, Sergey Levine

[3] Sim-to-Real Robot Learning from Pixels with Progressive Nets [arXiv 2016]  Andrei A. Rusu Deepmind.

[4] Transfer from Simulation to Real World through Learning Deep Inverse Dynamics Model [arXiv 2016] Paul Christiano, Zain Shah, Igor Mordatch, Jonas Schneider, Trevor Blackwell, Joshua Tobin, Pieter Abbeel, and Wojciech Zaremba

[5] Sim-to-Real Transfer of Robotic Control with Dynamics Randomization [ICRA 2018] Xue Bin Peng, Marcin Andrychowicz, Wojciech Zaremba, and Pieter Abbeel

[6] Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World [IROS 2017] Josh Tobin, Rachel Fong, Alex Ray, Jonas Schneider, Wojciech Zaremba, Pieter Abbeel

3.1 GDA

论文标题:Towards Adapting Deep Visuomotor Representations from Simulated to Real Environments

论文链接:https://arxiv.org/abs/1511.07111

该论文属于 Domain Adaption 类别。

▲ 虚拟环境以及现实环境收集到的图像对比

如上图,本文的基本思想是,无论是在模拟环境还是在现实环境智能体收集的图像中,对于任务比较重要的便是一些可控制物体或者目标的位置。因而希望学到的隐含表示能够保留这部分物体的位置信息。

以上是针对图像局部信息的约束。而对于整体图像来说,本文希望模拟环境以及现实环境在这个公共的隐含表示空间中的隐含表示无法被一个二分类器所分辨出来。另外,对于一对图片,例如上图,本文希望这一对图片的隐含表示的欧氏距离能够尽可能接近。

根据以上三个约束,可以得到以下三个损失函数:

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值