（九）强化学习——带基线的策略梯度,REINFORCEMENT with baseline,Advantage Actor-Critic(A2C)

最新推荐文章于 2024-04-22 15:36:21 发布

Eagle Xu

最新推荐文章于 2024-04-22 15:36:21 发布

阅读量1k

点赞数 26

分类专栏：强化学习（RL）学习分享文章标签：人工智能深度学习机器学习神经网络

本文链接：https://blog.csdn.net/qq_44524552/article/details/136810707

版权

强化学习（RL）学习分享专栏收录该内容

9 篇文章 4 订阅

订阅专栏

1.前言
上一节推导了策略梯度，分享了两种策略梯度算法REINFORCEMENT算法，和Actor-Critic算法（八）强化学习——策略梯度,REINFORCEMENT算法,Actor-Critic。方法在理论上是正确的，但是在实践中效果并不理想。本节介绍的带基线的策略梯度(PolicyGradient with Baseline) 可以大幅提升策略梯度方法的表现。使用基线(Baseline) 之后，REINFORCE变成REINFORCE with Baseline，Actor-Critic变成Advantage Actor-Critic (A2C)。
2. 基线(Baseline）
在这里插入图片描述

策略梯度定理

在这里插入图片描述

带基线的策略梯度定理

我们可以看见梯度策略定理与带基线的策略梯度定理的区别。减了一个b,这里的b是任意的函数，但是b不能依赖于A。把b作为动作价值函数Qπ(S,A)的基线，对策略梯度没有影响，至于为什么对梯度策略没有影响，这里就不证明了，参考北大王树森的课程。
定理中的策略梯度表示成了期望的形式，我们对期望做蒙特卡洛近似。从环境中观测到一个状态s，然后根据策略网络抽样得到a∼π(·|s;θ)。那么策略梯度∇θJ(θ)可以近似为下面的随机梯度：
在这里插入图片描述
不论b的取值是0还是Vπ(s)，得到的随机梯度gb(s,a;θ)都是∇θJ(θ)的无偏估计：

虽然b的取值对ES,A[gb(S,A;θ)]毫无影响，但是b对随机梯度gb(s,a;θ)是有影响的。用不同的b，得到的方差为：
如果b很接近Qπ(s,a)关于a的均值，那么方差会比较小。所以一般用b=Vπ(s)做为基线。

3.带基线的REINFORCE算法
带基线的REINFORCE需要两个神经网络，一个是策略网π（a|s;θ）,一个是价值网络v(s;w)。策略网络和之前是一样的，输入是状态s,输出是一个向量，每一个元素表示一个动作的概率。此处的价值网络v(s;w)与之前使用的价值网络q(s,a;w)区别较大。此处的v(s;w)是对状态价值Vπ的近似，而非对动作价值Qπ的近似。输入状态是s,输出是一个实数。价值网络没有起到“评委”的作用，只是作为基线而已，目的在于降低方差，加速收敛。
训练流程：
在这里插入图片描述

4.Advantage Actor-Critic (A2C)
A2C属于Actor-Critic 方法。有一个策略网络π(a|s;θ)，相当于演员，用于控制智能体运动。还有一个价值网络v(s;w)，相当于评委，他的评分可以帮助策略网络（演员）改进技术。两个神经网络的结构与带基线的REINFORCE算法中的完全相同，但是训练更新网络参数的方式不同。
A2C中策略网络（演员）和价值网络（评委）的关系如图示。智能体由策略网络π控制，与环境交互，并收集状态、动作、奖励。策略网络（演员）基于状态st做出动作at。价值网络（评委）基于st、st+1、rt算出TD误差δt。策略网络（演员）依靠δt来判断自己动作的好坏，从而改进自己的演技（即参数θ）。
在这里插入图片描述
训练步骤：

5.总结
本节分享了带基线REINFORCEMENT算法和A2C算，是在之前的策略梯度上加了一个基线的REINFORCEMENT和AC改进方法。我们一般用Vπ(s)做为基线。对于AC和A2A，他们的策略网络结构都相同，但价值网络结构不同。AC的价值函数是用的Qπ，而A2C用的是Vπ。这导致他们的更新方式也不同。
参考资料
深度强化学习，王树森张志华著

Eagle Xu

关注

26
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
（九）强化学习——带基线的策略梯度,REINFORCEMENT with baseline,Advantage Actor-Critic(A2C)

策略网络和之前是一样的，输入是状态s,输出是一个向量，每一个元素表示一个动作的概率。本节介绍的带基线的策略梯度(PolicyGradient with Baseline) 可以大幅提升策略梯度方法的表现。两个神经网络的结构与带基线的REINFORCE算法中的完全相同，但是训练更新网络参数的方式不同。把b作为动作价值函数Qπ(S,A)的基线，对策略梯度没有影响，至于为什么对梯度策略没有影响，这里就不证明了，参考北大王树森的课程。不论b的取值是0还是Vπ(s)，得到的随机梯度gb(s,a;
复制链接

扫一扫