【强化学习】基于策略的深度强化学习

最新推荐文章于 2024-11-05 01:22:42 发布

Henry_Zhao10

最新推荐文章于 2024-11-05 01:22:42 发布

阅读量211

点赞数

分类专栏：强化学习文章标签：算法机器学习深度学习

本文链接：https://blog.csdn.net/Henry_Zhao10/article/details/132601217

版权

强化学习专栏收录该内容

12 篇文章

订阅专栏

本文概述了基于策略的深度强化学习方法，如Actor-Critic架构下的A3C和A2C，以及它们如何结合深度神经网络。讨论了TRPO和PPO的改进，以及确定性策略梯度（DPG）和双层DQN（DDPG）的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

基于策略的深度强化学习

A3C A2C

回顾Actor-Critic

Actor-Critic包含两个部分

Actor演员， $\pi_\theta(a|s)$ ，它的作用是采取动作使Critic评论家满意的策略
$\begin{gathered} J(\theta)=\mathbb{E}_{s \sim p, \pi_\theta}\left[\pi_\theta(a \mid s) Q_{\Phi}(s, a)\right] \\ \frac{\partial J(\theta)}{\partial \theta}=\mathbb{E}_{\pi_\theta}\left[\frac{\partial \log \pi_\theta(a \mid s)}{\partial \theta} Q_{\Phi}(s, a)\right] \end{gathered}$
Critic评论家， $Q_\Phi(s,a)$ ，它的作用是学会准确估计演员策略所采取动作价值的值函数，使用TD Error进行更新。
$Q_{\Phi}(s, a) \simeq r(s, a)+\gamma \mathbb{E}_{s^{\prime} \sim p\left(s^{\prime} \mid s, a\right), a^{\prime} \sim \pi_\theta\left(a^{\prime} \mid s^{\prime}\right)}\left[Q_{\Phi}\left(s^{\prime}, a^{\prime}\right)\right]$

$\begin{aligned} \nabla_\theta J(\theta) & =\mathbb{E}_{\pi_\theta}\left[\nabla_\theta \log \pi_\theta(s, a) G_t\right] \quad REINFORCE \\ & =\mathbb{E}_{\pi_\theta}\left[\nabla_\theta \log \pi_\theta(s, a) Q_{\mathrm{w}}(s, a)\right] \quad Q Actor-Critic\\ & =\mathbb{E}_{\pi_\theta}\left[\nabla_\theta \log \pi_\theta(s, a) A_{\mathbf{w}}(s, a)\right] \quad 优势Actor-Critic\\ & =\mathbb{E}_{\pi_\theta}\left[\nabla_\theta \log \pi_\theta(s, a) \delta\right] \quad TD Actor-Critic\\ & =\mathbb{E}_{\pi_\theta}\left[\nabla_\theta \log \pi_\theta(s, a) \delta e\right] \quad TD(\lambda) Actor-Critic \end{aligned}$

A3C

如何将基于策略的RL方法和深度神经网络有效地结合在一起？

DQN使用的是经验回放技术，来减少数据之间的相关性，因为每个样本可能是不同策略所产生的，但是标准的策略梯度方法是On-Policy的，需要根据当前的策略来采样数据。

所以基于策略梯度的方法是无法采用经验回放的，只能采用并行训练的方法来减少数据相关性

异步并行是每个线程并行收集 ${(s_i,a_i,r_i,s_i^\prime)}$ ，让数据一定程度上是独立同分布的，各自累计梯度更新参数，各个线程可能运行不同的步数后再去更新策略函数

同步并行是每个线程并行收集 ${(s_i,a_i,r_i,s_i^\prime)}$ ，同步累计梯度更新参数，各个线程在相同步数后去更新策略函数。

A2C

A3C的异步更新会导致有时不同线程中的Actor将使用不同版本的策略，因此累积更新的方向将不是最优的。

A2C是一种同步更新的方法

等待各个线程完成自己的任务，再计算各个线程的梯度平均值，然后对参数进行更新

每一次迭代中并行的actor将均执行同一策略，这种训练方式理论上会收敛更快

A2C已被证明在能够实现与A3C相同或更好的性能得同时，更有效地利用GPU，并且能够适应更大的批量batch_size大小

A2C网络的公式如下：
$\nabla \bar{R}_\theta \approx \frac{1}{N} \sum_{n=1}^N \sum_{t=1}^{T_n}\left(r_t^n+V_\pi\left(s_{t+1}^n\right)-V_\pi\left(s_t^n\right)\right) \nabla \log p_\theta\left(a_t^n \mid s_t^n\right)$
还可以使用n-步回报来减少方差，是将梯度前面的优势由单步变为多步的。用来平衡是否有偏和方差高低。

Off-policy 策略梯度

A3C和A2C均是On-policy。

On-policy是根据策略 $\pi$ 产生的样本来学习关于 $\pi$ 的相关知识

Off-policy是根据另一个策略 $\mu$ 产生的样本来学习关于 $\pi$ 的相关知识

Off-policy的优势在于：1.可重复利用历史样本，数据利用率更高，2.利用行为策略交互收集数据，适用性更好。

那么想要将策略梯度转为Off-Policy的，可以使用重要性采样来实现。
$\begin{aligned} E_{x \sim p(x)}[f(x)] & =\int p(x) f(x) d x \\ & =\int \frac{q(x)}{q(x)} p(x) f(x) d x \\ & =\int q(x) \frac{p(x)}{q(x)} f(x) d x \\ & =E_{x \sim q(x)}\left[\frac{p(x)}{q(x)} f(x)\right] \end{aligned}$
策略梯度的优化目标是：
$J(\theta)=E_{\tau \sim p_\theta(\tau)}[r(\tau)]$
其中 $p_\theta(\tau)$ 是目标策略 $\pi_\theta(\tau)$ 产生的概率分布， $\bar{p}(\tau)$ 是行为策略所产生的概率分布
$J(\theta)=E_{\tau \sim \bar{p}(\tau)}\left[\frac{p_\theta(\tau)}{\bar{p}(\tau)} r(\tau)\right]$

TRPO（Trust region policy optimization）

策略梯度的步长更新是 $\theta = \theta + \alpha \nabla_\theta J(\theta)$

策略梯度对学习率敏感，训练过程中容易出现策略崩塌。

策略梯度算法的更新步长很重要

步长太小，导致更新效率低下

步长太大，导致参数变动太大，采集到的数据的分布会随策略的更新而变化，导致可能无法从bad policy恢复

TRPO的思想上选择合适的步长，使得每次更新得到的新策略所实现的回报值单调不减。

信赖域（Trust Region）方法是更高级的步长更新方法，指在该区域内更新，策略所实现的回报值单调不减。

具体实现上是要找到一个替代函数，该函数要满足以下条件：

是 $J(\theta)$ 的一个下界函数
在当前策略处逼近 $J(\theta)$
当替代函数的值提升时， $J(\theta)$ 单调不减
容易优化

PPO

PPO在TRPO的基础上，自适应地调整KL惩罚因子，使得策略在trust region内更新

DPG/DDPG

确定性策略梯度： $a=\pi_\theta(s)$

直接给定当前状态下确定性的动作

找到使Q函数最大的动作

这两种方法的特点就是给出一个确定性的动作，而不是给出一个动作的概率分布

DPG

DDPG

DDPG结合了DQN和DPG，DQN用于高维输入离散动作空间，DPG用于低维输入连续动作空间。

使用了DQN的两种技术：Experience Replay和Target Network

对于critic和actor均有Target Network，采用软更新的方式
$\theta^{-} \leftarrow \tau \theta+(1-\tau) \theta^{-} \quad w^{-} \leftarrow \tau w+(1-\tau) w^{-} \quad \tau \ll 1$
$\theta^-$ 为目标actor网络参数， $w^-$ 为目标critic网络参数

为了充分探索，利用添加噪声产生探索性动作
$\pi^\prime_\theta(s)=\pi_\theta(s)+\mathcal N, \quad \mathcal N是噪声$
算法流程：

Actor当前网络： $a=\pi_\theta(s)$ ，根据当前状态 $s$ 选择当前执行的确定性动作 $a$ ，用于和环境交互生成 $s^\prime$ ,r

Critic当前网络：估计当前Q值 $Q_w(s,a)$

Critic目标网络：估计target Q值， $r+\gamma Q_{w^-}(s^\prime,a^\prime)$

Actor目标网络： $a^\prime=\pi_{\theta^-}(s^\prime)$ ，根据经验回放池中采样的下一个状态 $s^\prime$ 选择动作 $a^\prime$ ，估计target Q值
$\begin{aligned} &DQN:\quad Q_w(s, a)-\left(r+\gamma \max _{a^{\prime}} Q_{w^{-}}\left(s^{\prime}, a^{\prime}\right)\right) \\ &DDPG: \quad Q_w(s, a)-\left(r+\gamma Q_{w^{-}}\left(s^{\prime}, \pi_{\theta^{-}}\left(s^{\prime}\right)\right)\right) \end{aligned}$