RL论文阅读1- 从PG到AC、A3C和A2C的理论推导+tensorflow2.0代码实现

SpadeA_Iverxin

已于 2022-03-20 15:17:56 修改

阅读量3k

点赞数 5

分类专栏：论文阅读文章标签：人工智能机器学习

于 2020-05-05 00:11:41 首次发布

本文链接：https://blog.csdn.net/KuXiaoQuShiHuai/article/details/105925960

版权

论文阅读专栏收录该内容

32 篇文章 5 订阅

订阅专栏

文章目录

A3C.2016 and A2C

A3C.2016 and A2C

Tittle

在这里插入图片描述

source

总结

针对的问题

简单的online RL算法和深度神经网络结合是不稳定的。
解决这种不稳定的方法有很多例如比较有效的就是经验回放。然而经验回放只能使用off-policy算法，需要大量内存和计算资源，而且可能使用一些old policy产生的数据去replay。

解决方法

提出新的解决方法。多个agent并行与环境交互产生数据。
关键思想：

对固定长度（例如20步）的经验片段进行操作，通过计算经验片段的return和Advantage function来更新。
在policy和value function 之间共享参数的结构
异步更新

这篇论文提出的是一种异步学习的框架，可以适用于one-step Q-learning/n-step Q-learning、one-step Sarsa/n-step Sarsa、和actor-critic类算法。

其中，应用到actor-critic类算法中，叫做A3C。

A3C: Asynchronous Advantage Actor Critic

A2C: Advantage Actor Critic

在A3C基础上，又衍生出A2C。 A2C是同步算法，在每次更新时，等待每个actor都完产出他的经验片段。这个的有点是能够更有效的使用GPUs。使用大的batch size。一般来说，效果好于A3C

优点

On-policy和Off-policy都适用
更快，相比experience replay
连续和离散动作空间懂能用。

原理

PG（Policy Gradient）:

agent和Env的某个交互序列

Env: s1 -> agent: a1 -> Env: s2 -> agent-> a2 …

得到交互序列：Trajectory $\tau = \{s_1,a_1,s_2,a_2,...,s_T,a_T\}$

那么我们得到完全一样的交互序列的 概率 $p_\theta(\tau)$ 是多少？
$p_\theta(\tau) = p(s_1)p_{\theta}(a_1|s_1)p(s_2|s_1,a_1)p_{\theta}(s_3|s_2,a_2)... \\ = p(s_1) \prod_{t=1}^{T}p_\theta(a_t|s_t)p(s_{t+1}|s_t,a_t)$

$p_\theta$ : 在某个状态下，产生某个动作的概率

$p$ Env 的转换概率，具有马尔科夫性。状态转换只和上次状态相关。

设 $R(\tau)$ 为整个序列的奖励的和。（无衰减）

agent在该策略( $\pi_\theta$ )下的奖励综合的数学期望为：
$\overline{R_\theta} = \sum_\tau R(\tau)p_\theta(\tau) = E_{\tau \sim p_\theta(\tau)}[R(\tau)]$

注意：这里是指所有轨迹所获的奖励的数学期期望。 $\tau$ 只代表某一个具体序列。

可见，总奖励的数学期望 $\overline{R_\theta}$ 越大，说明我们的策略越好。目标就是最大化 $\overline{R_\theta}$ ，使用梯度下降
$\nabla \overline{R_\theta} = \sum_\tau R(\tau) \nabla p_\theta(\tau) \\ =\sum_\tau R(\tau) p_\theta(\tau) \frac{\nabla p_\theta(\tau)}{p_\theta(\tau)} \\ =\sum_\tau R(\tau) p_\theta(\tau) \nabla \log p_\theta(\tau)$

$\nabla f(x) = f(x) \nabla \log f(x)$ 就是那个导数公式， log底数为e

求和符号和概率 $p_\theta(\tau)$ 拿出来，就是数学期望

$E_{\tau \sim p_\theta(\tau)}[R(\tau) \nabla \log p_\theta(\tau)] \\$

假设有N组序列， $\tau^{(1)}...\tau^{(n)}$ ,且认为每个序列产生的次数相等

$\approx \frac{1}{N} \sum_{n=1}^N R(\tau^{(n)}) \nabla \log p_\theta(\tau^{(n)}) \\$

把上面计算单饿 $p_\theta(\tau)= p(s_1) \prod_{t=1}^{T}p_\theta(a_t|s_t)p(s_{t+1}|s_t,a_t)$ 带入上式，整理：

$\frac{1}{N} \sum_{n=1}^N \sum_{t=1}^{T_n}R(\tau^{(n)}) \nabla \log p_\theta(a_t^n|s_t^n)$

上式就是策略参数的梯度。

PG算法的缺点：

需要一个完整的序列
在一个总奖励的期望较高的序列中，可能存在个别的很差的动作a。由于我们优化目标是总奖励尽可能高，优化时会忽视这个问题。造成的结果就是，为了得到最优策略，我们很多次采样来消除个别差的动作干扰。

AC:

AC aka Actor和Critic。

PG算法必须要一个完整的序列，才能够计算出来 $R_t$ , 是基于Monte Carlo算法的。

为了解决PG的两个缺点，把算法转移到TD-learning上。

解决的办法就是使用 $Q(s^{n},a^{n})$ 值来代替 $R(\tau^{(n)})$ 。这个Q值是由神经网络产生的。我们不在需要等完整的序列，只需要把响应的动作和状态传到Q网络（critic）中，询问Q值，就可以大致判断出动作好坏。

存在两个网络，一个是Actor, 产生动作。

Actor： $\pi(s;\theta)$
- 参数: $\theta$
- Input： States
- Output： action（可以是连续的，如ddpg算法）
- 优化梯度：
  $\frac{1}{N} \sum_{n=1}^N \sum_{t=1}^{T_n}Q(s^{(n)},a^{(n)}) \nabla \log p_\theta(a_t^{(n)}|s_t^{(n)})$
  
  $p_\theta(a_t^n|s_t^n)$ 就是 $\pi(a_t^n | s_t^n ; \theta)$
Critic: $Q (s, a; w)$
- 参数： $w$
- Input: Status 和 Action
- Output：Q-value
- 优化参数：
  
  就是希望Critic给出的结果和实际的结果之间误差最小。
  
  这里面target Q使用 $r_t^n + \max_{a^n_{t+1}}Q^{\pi_\theta}(s^n_{t+1},a^n_{t+1})$ 估计。这里和DQN的target一样，只是没有乘以 $\gamma$ 。乘以也可以。
  
  $\frac{1}{N} \sum_{n=1}^N \sum_{t=1}^{T_n} (r_t^n + \max_{a^n_{t+1}}Q^{\pi_\theta}(s^n_{t+1},a^n_{t+1})- Q^{\pi_\theta}(s_t^n,a_t^n))^2$

N ： N组采样的序列，batch size

$T_n$ ：每一组序列有多少步，可以是1步，也可以是n步。

优化方法：

Actor网络负责产生动作a，Critic网络负责使用Q-Value来评价这个动作好坏。

A2C和A3C的原理支撑：

AC算法虽然解决了单步学习的问题

A2C和AC相比，引入了Advantage function.

什么是Advantage function??

对于AC算法，收敛不稳定。

把 $Q (s, a; w)$ 加入一个baseline，一般这个baseline是 $V(s;\theta)$

那么Actor的优化梯度为：
$\frac{1}{N} \sum_{n=1}^N \sum_{t=1}^{T_n}(Q(s^{(n)},a^{(n)})-V(s;\theta)) \nabla \log p_\theta(a_t^{(n)}|s_t^{(n)})$

N组

$T_n$ 步

$Q(s^{(n)},a^{(n)})-V(s^n;\theta)$ 就是优势函数A。

难道，，，，我们同时需要Q和V两个网络来做critic么？？不用，使用TD-error来估计

TD error $\delta_t = R_{t} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t)$

$R_t^n + \gamma V^\pi(s_{t+1} ^n)-V^\pi(s_t^n) 代替Q^\pi(s^n_t,a^n_t)-V(s^n)$

会增加一定的方差，可以忽略不计。

Actor：

策略 $\pi(a_t|s_t;\theta)$ 。actor
- 本身参数 $\theta$
- 函数 $\pi$ 的Input是状态 $s_t$
- output：在状态 $s_t$ 下，动作 $a_t$ 的概率
策略函数的（actor）更新梯度
- $\nabla_{\theta'}\log \pi(a_t|s_t;\theta')A(s_t, a_t; \theta,\theta_v)$
- （可选）通过阻止过早的收敛到次优策略，可以目标函数中加入策略的熵，从而提升探索能力(Williams & Peng,1991)。所以：
  $\nabla_{\theta'}\log \pi(a_t|s_t;\theta')A(s_t, a_t; \theta,\theta_v) + \beta \nabla_{\theta'}H(\pi(s_t; \theta'))$
  
  H是熵。
  
  $\beta$ 控制熵的正则化强度。
优势函数(advantage function) $A(s_t, a_t; \theta, \theta_v)$
- 从状态 $s_1$ 开始，采样了 $k$ 步。下标如上图：
  - $A(s_{k-1}, a_{k-1}) = r_{k-1} + \gamma V(S_{k};\theta_v) - V(s_{k-1};\theta_v)$
  - $A_t(s_{k-2}, a_{k-2}) = r_{k-2} + \gamma r_{k-1}+ \gamma^2 V(S_{k};\theta_v) - V(S_{k-2};\theta_v)$
  - …
  - $A({s_0,a_0}) = r_0 + \gamma r_2 + \gamma^2 r_3 ... + \gamma^{k-2}r_{k-1} + \gamma^{k-1}V(s_{k};\theta_v) - V(S_{0};\theta_v)$
  注：这里的k和上文的 $T_n$ 代表的同一个东西。
注：可以认为奖励是离开 $S_t$ 后，获得奖励 $r_t$

注：论文中的原版中符号和此处略有差异。但是表达的意思相同。

$A(s_t,a_t) = R_t -V(S_t;\theta)$

$R_t$ 为状态t的return。
在更新时，使用累计梯度更新。（应该是为了提高data efficiency)

对于某个采样序列 $\tau = \{s_1,a_1,s_2,a_2,...,s_k,a_k\}$
$d\theta^\tau = \sum_{t=0} ^{k-1}\nabla_{\theta'}\log \pi(a_t|s_t;\theta')A(s_t, a_t; \theta,\theta_v)$

A为优势函数

Actor在Continues Action 连续动作空间处理

我们的梯度更新函数所使用的 $\pi(a_t|s_t;\theta)$ 代表的是状态s下选择a动作的概率。

对于离散的动作空间，actor网络直接输出的是各个动作的概率，所以直接就可以用。

但是对于连续的动作空间，actor网络需要输出的是两个参数 $\mu$ 和 $\sigma$ 。

# example
in = keras.layers.Input(shape=input_state_shape)
layer = keras.layers.Dense(units=64,activation=tf.nn.relu)(input)
layer = keras.layers.Dense(units=64, activation=tf.nn.relu)(layer)

# 使用tanh，保证在0-1之间
mu = keras.layers.Dense(units=action_dim, activation=tf.nn.tanh, name='mu')(layer)
sigma = keras.layers.Dense(units=action_dim, activation=tf.nn.softplus, name='sigma')(layer) 
model = keras.models.Model(inputs=in, outputs=[mu, sigma], name=name)

然后使用生成的 $\mu, \sigma$ 来构造正态分布norm_dist

动过a的获得：

所得到的 $\mu$ 范围在0-1之间，再乘以动作的范围，就可以得到Actor的预测动作。
在探索时，只需要服从这个正态分布对横坐标进行一个采样。（在 $\mu$ 附近概率较大，越远概率越小。），通过增大 $\sigma$ 可以增加探索率。
如果有多个连续的动作空间，那么就需要多组正态分布

动作a在策略 $\pi$ 下概率的计算( $\pi(a_t |s_t;\theta)$ )

动作 $a_t$ 是已知的（采样序列中的）
通过Actor对状态s生成响应的正态分布norm_dist
求动作 $a_t$ 在这个正态分布中的概率（其实就是算一个积分。从负无穷到 $a_t$ ）

注：在tensorflow_probability包中有直接生成正态分布、采样、某一点的概率、某一点概率的对数（这个求梯度用的到）的响应函数。
import tensorflow_probability as tp
tfd = tp.distributions
a = tfd.Normal(0.2,2) # 生成正态分布
a.log_prob(x) # 计算x在正态分布a下的概率的log值

Critic

状态价值函数 $V(s_t; \theta_v)$ critic
- 自身参数 $\theta$
- input： $s_t$
- output: V，代表某个状态的价值。
状态价值函数的优化(critic)
- cost function:（实际状态价值和估计状态价值的均方误差）
  $J(\theta)=\frac{1}{N} \sum_1^N {(\sum^{k-1}_{i=0} \gamma^ir_{t+i} + \gamma^{Tn}V(s_{t+k};\theta_v)-V(s_i;\theta))^2} \\ =\frac{1}{N} \sum_1^N \sum_1^{T_{n}} {(R_t - V(s_i;\theta))^2}$
  
  N个 batch size
  
  T_n步长
  
  $V(s_i;\theta)$ 实际状态价值
$R_t$ 是Return，不是Reward！！！
- $\frac{\partial(R-V(s_i; \theta_v'))^2}{\partial \theta_v'}$

A3C的架构：

在这里插入图片描述

多个agent一起跑、
所有agent共跑 $T_{max}$ 步后，统一更新所有agent的参数 $\theta'$
每个agent跑了 $t_{max}$ 步或者停止后，对 $d\theta'$ 和 $d\theta'_v$ 进行一次累加。并更新到全局target
用累加的梯度来更新全局的目标 $\theta、\theta_v$

A2C架构

在这里插入图片描述

代码实现：

Github
Pendulum-v0测试环境Reward图

蓝色为A2C
橙色为A3C

reference

原版论文
Blog
David Silver强化学习笔记
李宏毅强化学习课程
Tensorlayer官方例程

SpadeA_Iverxin

关注

5
点赞
踩
26

收藏

觉得还不错? 一键收藏
6
评论
RL论文阅读1- 从PG到AC、A3C和A2C的理论推导+tensorflow2.0代码实现

文章目录A3C.2016 and A2CTittle标签总结针对的问题解决方法优点原理PG（Policy Gradient）:AC:A2C和A3C的原理支撑：Actor：Actor在Continues Action 连续动作空间处理CriticA3C的架构：A2C架构代码实现：referenceA3C.2016 and A2CTittlesource标签Model-freePoli...
复制链接

扫一扫

专栏目录