引导策略搜索方法(Guided Policy Search)最早见于2015年 Sergey Levine 的博士论文
Levine S, “Motor skill learning with local trajectory methods,” PhD thesis, Stanford University, 2014.
GPS将策略搜索分为两步:控制相和监督相。这样有什么好处呢?这要从无模型强化学习方法的局限性说起。TRPO方法和DDPG方法都是典型的无模型强化学习方法。他们有很多优点,比如可以不对外界环境进行建模,当外界环境十分复杂的时候,这些方法是唯一可行的方法。但是我模型的强化学习智能通过不断尝试来探索环境,这些算法最多只能处理数百个参数的网络,对于更大的网络,这些方法的效率不高。
解决无模型随机搜索问题的方法就是利用模型搜索。有了模型之后:
- 利用模型和基于模型的优化算法,可以得到回报高的数据,也就是好数据。
- 有了模型,我们可以充分利用示教(Demonstration)进行学习。
因此,GPS方法将策略搜索方法分成控制相和监督相。控制相通过轨迹最优、传统控制器或随机最优等方法控制产生好的数据;监督相利用从控制相产生的好数据进行监督学习。
GPS是一类强化学习方法,其包含的具体方法有多种。GPS的发展可以从三个方面了解:
- 从问题的构建来看:GPS从基于重要性采样的GPS(ISCPS) - 基于变分推理的GPS(vGPS) - 基于约束的GPS(cGPS) 。
- 从优化的方法来看:cGPS经历了 Dual GPS(对偶梯度下降法)- BADMM(布雷格曼交叉方向乘子法)- Mirror Descent GPS(镜像下降优化算法)。
- 从控制相来看:GPS从基于轨迹最优(微分动态规划DDP、线性二次规划LQR和线性二次高斯LQG) - 随机最优控制PI2 GPS。
接下来我们大致介绍下基于约束的GPS方法,依据是2014年Levine在ICML上的论文:
Learning Complex Neural Network Policies with Trajectory Optimization
这里不做细致推导。
基于约束的引导策略搜索方法可形式化为: