Learning Robust Manipulation Skills with Guided Policy Search via Generative Motor Reflexes读书笔记

Guided Policy Search(GPS) 学到的policy比较受trajectory optimization得到的trajectory分布的影响,因为其本质上就是做了个supervised learning,因此在未见到的state上容易出现不稳定的情况。本文的目标是得到一个更加robust的policy,本文称之为Generative Motor Reflexes(GMR)结构。

在GPS中,policy通过NN直接输出action的均值和方差;而在GMR中,先通过NN输出linear Gaussian Controller的系数\Phi_K, \Phi_k, \Phi_\Sigma,对应的policy为u \sim \mathcal{N}(\Phi_Kx+\Phi_k, \Phi_\Sigma)

另外为了得到更加鲁棒的policy,在训练过程中采用VAE将state编码,运用latent variable作为GMR的输入。因为z上加了噪音,得到的policy能覆盖更大范围的state,鲁棒性更好。

实验部分分别做了一个模拟环境和真实环境的实验,其中模拟环境是让机械臂终点到达目标位置,真实环境是将木块塞入目标缺口中。比较了GMR和MDGPS的学习速率(迭代轮数)和方差,以及在测试时使用不同condition(训练时没有见过的)来评测policy的robustness。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值