本文主要介绍了对机器手臂动力学参数的分布进行学习,能更有效率的适应真实环境,从而缩小sim to real gap。论文原址:
Closing the Sim-to-Real Loop: Adapting Simulation Randomization with Real World Experience
sim to real 问题在强化学习中被广泛研究,目前主要有以下几种研究方向:系统辨识(system identification)、领域适应(domain adaption)、参数随机化(parameters randomization)、元强化学习(meta-rl learning)。本文主要是对传统的参数随机化方法进行改进。作者认为可以使用一小部分的真实环境的数据来优化模拟环境的参数分布,从而使得模拟环境能够更好的 match 真实环境,这样训练出来的策略就更好。
传统的参数随机化
传统的参数随机化可以OpenAI这篇论文,(有钱、有设备、有技术做的东西就是不一样。
主要思想就是我有一个prior知识——对目标环境(真实环