强化学习读书笔记
强化学习读书笔记
「已注销」
遇见更好的自己
展开
-
Multimodal Policy Search using Overlapping Mixtures of Sparse Gaussian Process Prior读书笔记
没怎么看懂,大致的motivation是,为了使non-parametric policy具有multimodal的性质,采用多个Gaussian Process混合的形式,并使用变分贝叶斯推断的方式进行policy search。还使用了sparse-pseudo-input GP进行扩展。实验比较简单,做了一个物体抓取(旋转夹子使得能夹起物体,有顺时针和逆时针两种策略)和table-...原创 2019-11-22 19:55:53 · 183 阅读 · 0 评论 -
Learning Robust Manipulation Skills with Guided Policy Search via Generative Motor Reflexes读书笔记
Guided Policy Search(GPS) 学到的policy比较受trajectory optimization得到的trajectory分布的影响,因为其本质上就是做了个supervised learning,因此在未见到的state上容易出现不稳定的情况。本文的目标是得到一个更加robust的policy,本文称之为Generative Motor Reflexes(GMR)结构。...原创 2019-11-22 17:32:47 · 231 阅读 · 0 评论 -
Deep Predictive Policy Training using Reinforcement Learning读书笔记
本文的目标是从raw image data中学习到predictive policy。predictive policy是指根据当前的input一次性输出之后一段时间内的action,而普通意义上的policy(文章里说是reactive types of controller)在每一个时刻都重新输出一个action。predictive policy的优势在于执行更快,不会受sensor del...原创 2019-11-20 17:13:43 · 226 阅读 · 0 评论