漫谈引导策略搜索 - A Review of Guided Policy Search (GPS)

引导策略搜索方法(Guided Policy Search)最早见于2015年 Sergey Levine 的博士论文

Levine S, “Motor skill learning with local trajectory methods,” PhD thesis, Stanford University, 2014.

GPS将策略搜索分为两步:控制相监督相。这样有什么好处呢?这要从无模型强化学习方法的局限性说起。TRPO方法和DDPG方法都是典型的无模型强化学习方法。他们有很多优点,比如可以不对外界环境进行建模,当外界环境十分复杂的时候,这些方法是唯一可行的方法。但是我模型的强化学习智能通过不断尝试来探索环境,这些算法最多只能处理数百个参数的网络,对于更大的网络,这些方法的效率不高。

解决无模型随机搜索问题的方法就是利用模型搜索。有了模型之后:

  1. 利用模型和基于模型的优化算法,可以得到回报高的数据,也就是好数据。
  2. 有了模型,我们可以充分利用示教(Demonstration)进行学习。

因此,GPS方法将策略搜索方法分成控制相和监督相。控制相通过轨迹最优、传统控制器或随机最优等方法控制产生好的数据;监督相利用从控制相产生的好数据进行监督学习。

GPS是一类强化学习方法,其包含的具体方法有多种。GPS的发展可以从三个方面了解:

  1. 从问题的构建来看:GPS从基于重要性采样的GPS(ISCPS) - 基于变分推理的GPS(vGPS) - 基于约束的GPS(cGPS) 。
  2. 从优化的方法来看:cGPS经历了 Dual GPS(对偶梯度下降法)- BADMM(布雷格曼交叉方向乘子法)- Mirror Descent GPS(镜像下降优化算法)。
  3. 从控制相来看:GPS从基于轨迹最优(微分动态规划DDP、线性二次规划LQR和线性二次高斯LQG) - 随机最优控制PI2 GPS。

接下来我们大致介绍下基于约束的GPS方法,依据是2014年Levine在ICML上的论文:

Learning Complex Neural Network Policies with Trajectory Optimization

这里不做细致推导。

基于约束的引导策略搜索方法可形式化为:

minθ,qDKL(q(τ)ρ(τ))s.t. q(x1)=p(x1)q(xt+1|xt,ut)=p(xt+1|xt,ut)DKL(q(xt)
  • 3
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值