Guided Policy Search(GPS) 学到的policy比较受trajectory optimization得到的trajectory分布的影响,因为其本质上就是做了个supervised learning,因此在未见到的state上容易出现不稳定的情况。本文的目标是得到一个更加robust的policy,本文称之为Generative Motor Reflexes(GMR)结构。
在GPS中,policy通过NN直接输出action的均值和方差;而在GMR中,先通过NN输出linear Gaussian Controller的系数,对应的policy为。
另外为了得到更加鲁棒的policy,在训练过程中采用VAE将state编码,运用latent variable作为GMR的输入。因为z上加了噪音,得到的policy能覆盖更大范围的state,鲁棒性更好。
实验部分分别做了一个模拟环境和真实环境的实验,其中模拟环境是让机械臂终点到达目标位置,真实环境是将木块塞入目标缺口中。比较了GMR和MDGPS的学习速率(迭代轮数)和方差,以及在测试时使用不同condition(训练时没有见过的)来评测policy的robustness。