强化学习——策略优化(笔记)

本文将会讨论策略优化的数学基础,并且会附上简单的实践代码。三个要点

  • 一个简单的等式,将策略梯度跟策略模型参数连接起来
  • 一条规则,允许我们将无用的项从等式里去掉
  • 另一条规则,允许我们在等式中添加有用的项

推导最简单的策略梯度

在这里,我们考虑随机参数化策略的情况 π θ \pi _ {\theta} πθ。我们的目标是使预期收益 J ( π θ ) = E τ ∼ π θ [ R ( τ ) ] J(\pi _ {\theta})= \underset{\tau \sim \pi _ {\theta} }{E}[ {R(\tau)}] J(πθ)=τπθE[R(τ)]最大化。出于此推导的目的,我们将 R ( τ ) R(\tau) R(τ)设为有限无折扣收益(无限折现收益设置的推导几乎相同)。

我们想要通过梯度上升来优化策略,例如:
θ k + 1 = θ k + α ∇ θ J ( π θ ) ∣ θ k \theta_{k+1} = \theta_k + \alpha \left. \nabla_{\theta} J(\pi_{\theta}) \right|_{\theta_k} θk+1=θk+αθJ(πθ)θk

其中 ∇ θ J ( π θ ) \nabla_{\theta}J(\pi_{\theta}) θJ(πθ)称为策略梯度,利用策略梯度来优化策略模型这种方法叫做策略梯度算法,例如VPG、TRPO。PPO通常也被称为策略梯度算法,但是这有点不太准确)

要实际使用此算法,我们需要一个可以通过数值计算的策略梯度表达式。这涉及两个步骤:

  • 得出策略模型的可解析的梯度,其形式跟期望值相差不大,
  • 对期望值进行样本估计,使其可以使用代理与环境交互产生的数据进行计算

在本小节中,我们将找到该表达式的最简单形式。在后面的小节中,我们将展示如何以最简单的形式进行改进,以获取我们在标准策略梯度实现中实际使用的版本。

1.序列的概率。由 π θ \pi _ {\theta} πθ产生动作, τ = ( s 0 , a 0 , . . . , s T + 1 ) \tau =(s_0,a_0,...,s_ {T + 1}) τ=(s0,a0,...,s

  • 7
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我是。

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值