没怎么看懂,大致的motivation是,为了使non-parametric policy具有multimodal的性质,采用多个Gaussian Process混合的形式,并使用变分贝叶斯推断的方式进行policy search。还使用了sparse-pseudo-input GP进行扩展。
实验比较简单,做了一个物体抓取(旋转夹子使得能夹起物体,有顺时针和逆时针两种策略)和table-sweep任务(移动机械臂将桌面上的物体清除,有多种清除顺序)
有空再仔细研究下。
没怎么看懂,大致的motivation是,为了使non-parametric policy具有multimodal的性质,采用多个Gaussian Process混合的形式,并使用变分贝叶斯推断的方式进行policy search。还使用了sparse-pseudo-input GP进行扩展。
实验比较简单,做了一个物体抓取(旋转夹子使得能夹起物体,有顺时针和逆时针两种策略)和table-sweep任务(移动机械臂将桌面上的物体清除,有多种清除顺序)
有空再仔细研究下。