Learning Robust Manipulation Skills with Guided Policy Search via Generative Motor Reflexes读书笔记

最新推荐文章于 2021-10-08 16:55:43 发布

「已注销」

最新推荐文章于 2021-10-08 16:55:43 发布

阅读量210

点赞数

分类专栏：强化学习读书笔记

本文链接：https://blog.csdn.net/sjh18813050566/article/details/103203528

版权

强化学习读书笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Guided Policy Search(GPS) 学到的policy比较受trajectory optimization得到的trajectory分布的影响，因为其本质上就是做了个supervised learning，因此在未见到的state上容易出现不稳定的情况。本文的目标是得到一个更加robust的policy，本文称之为Generative Motor Reflexes（GMR）结构。

在GPS中，policy通过NN直接输出action的均值和方差；而在GMR中，先通过NN输出linear Gaussian Controller的系数 $\Phi_K, \Phi_k, \Phi_\Sigma$ ,对应的policy为 $u \sim \mathcal{N}(\Phi_Kx+\Phi_k, \Phi_\Sigma)$ 。

另外为了得到更加鲁棒的policy，在训练过程中采用VAE将state编码，运用latent variable作为GMR的输入。因为z上加了噪音，得到的policy能覆盖更大范围的state，鲁棒性更好。

实验部分分别做了一个模拟环境和真实环境的实验，其中模拟环境是让机械臂终点到达目标位置，真实环境是将木块塞入目标缺口中。比较了GMR和MDGPS的学习速率（迭代轮数）和方差，以及在测试时使用不同condition（训练时没有见过的）来评测policy的robustness。

「已注销」

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Learning Robust Manipulation Skills with Guided Policy Search via Generative Motor Reflexes读书笔记

Guided Policy Search(GPS) 学到的policy比较受trajectory optimization得到的trajectory分布的影响，因为其本质上就是做了个supervised learning，因此在未见到的state上容易出现不稳定的情况。本文的目标是得到一个更加robust的policy，本文称之为Generative Motor Reflexes（GMR）结构。...
复制链接

扫一扫

专栏目录