漫谈引导策略搜索 - A Review of Guided Policy Search (GPS)

最新推荐文章于 2025-03-23 09:29:32 发布

止于至玄

最新推荐文章于 2025-03-23 09:29:32 发布

阅读量5.4k

点赞数 3

分类专栏： Reinforcement Learning 文章标签：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/philthinker/article/details/79575794

版权

引导策略搜索（GPS）是一种强化学习方法，它将策略搜索分为控制相和监督相，有效应对无模型强化学习的挑战。通过模型搜索，GPS能利用示教数据和基于模型的优化，提高学习效率。GPS经历了从基于重要性采样到基于约束的发展，包括了DDP、LQR、LQG和随机最优控制等多种策略。本文概述了GPS的方法和进化，特别是基于约束的GPS及其优化算法，如对偶梯度下降和布雷格曼交叉方向乘子法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

引导策略搜索方法（Guided Policy Search）最早见于2015年 Sergey Levine 的博士论文

Levine S, “Motor skill learning with local trajectory methods,” PhD thesis, Stanford University, 2014.

GPS将策略搜索分为两步：控制相和监督相。这样有什么好处呢？这要从无模型强化学习方法的局限性说起。TRPO方法和DDPG方法都是典型的无模型强化学习方法。他们有很多优点，比如可以不对外界环境进行建模，当外界环境十分复杂的时候，这些方法是唯一可行的方法。但是我模型的强化学习智能通过不断尝试来探索环境，这些算法最多只能处理数百个参数的网络，对于更大的网络，这些方法的效率不高。

解决无模型随机搜索问题的方法就是利用模型搜索。有了模型之后：

利用模型和基于模型的优化算法，可以得到回报高的数据，也就是好数据。
有了模型，我们可以充分利用示教（Demonstration）进行学习。

因此，GPS方法将策略搜索方法分成控制相和监督相。控制相通过轨迹最优、传统控制器或随机最优等方法控制产生好的数据；监督相利用从控制相产生的好数据进行监督学习。

GPS是一类强化学习方法，其包含的具体方法有多种。GPS的发展可以从三个方面了解：

从问题的构建来看：GPS从基于重要性采样的GPS(ISCPS) - 基于变分推理的GPS(vGPS) - 基于约束的GPS(cGPS) 。
从优化的方法来看：cGPS经历了 Dual GPS（对偶梯度下降法）- BADMM（布雷格曼交叉方向乘子法）- Mirror Descent GPS（镜像下降优化算法）。
从控制相来看：GPS从基于轨迹最优（微分动态规划DDP、线性二次规划LQR和线性二次高斯LQG） - 随机最优控制PI2 GPS。

接下来我们大致介绍下基于约束的GPS方法，依据是2014年Levine在ICML上的论文：

Learning Complex Neural Network Policies with Trajectory Optimization

这里不做细致推导。

基于约束的引导策略搜索方法可形式化为：

min θ, q D K L (q (τ) ∥ ρ (τ)) s.t. q (x 1) = p (x 1) q (x t + 1 | x t, u t) = p (x t + 1 | x t, u t) D K L (q (x t)

最低0.47元/天解锁文章

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。