RL策略梯度方法之(八): Distributed Distributional DDPG (D4PG)

最新推荐文章于 2024-06-18 09:35:48 发布

晴晴_Amanda

最新推荐文章于 2024-06-18 09:35:48 发布

阅读量2.6k

点赞数 4

分类专栏：强化学习 RL 基础算法文章标签：强化学习

本文链接：https://blog.csdn.net/qq_38293297/article/details/108919245

版权

28 篇文章 27 订阅

订阅专栏

18 篇文章 13 订阅

订阅专栏

$\color{red}D4PG$ ：[ paper | code ]

原理解析

D4PG 主要是在 DDPG的基础上做了一系列修改以应用分布式。

即：主要从两个方面对DDPG进行扩展：

总体框架与DDPG相同，引入了一些trick：

支持分布式，由于是off-policy的算法，因此可以使用多个actor去分布式地采样，然后存储在同一个replay buffer中，learner从buffer中采样，更新之后再将权重同步到各个actor上。
critic使用价值函数分布，分布式评论家不再只估计Q值的期望值，而是去估计期望Q值的分布，即将期望Q值作为一个随机变量来进行估计;学习该分布的参数所对应的损失函数是去最小化两个分布之间的某种距离度量，损失函数变为(d是距离度量)： $L(w)=\mathbb{E}_ρ[d(\Tau_{\pi_{\theta'}}Z_{\omega'}(x,a),Z_\omega(x,a))]$ ；；其中， $(T_\pi Z)(x, a)=r(x,a)+\gamma\mathbb{E}[Z(x’,\pi(x’))|x,a]$ 为 distributional Bellman operator， Z 是用来估计 Q 的， $Q_\pi(x,a) = \mathbb{E}Z_\pi(x,a)$
引入n-step TD error：当计算TD误差时，D4PG计算的是N步的TD目标值而不仅仅只有一步，这样就可以考虑未来更多步骤的回报。这样可以减少更新的variance： $r\left(s_{0}, a_{0}\right)+\mathbb{E}\left[\sum_{n=1}^{N-1} r\left(s_{n}, a_{n}\right)+\gamma^{N} Q\left(s_{N}, \mu_{\theta}\left(s_{N}\right)\right) | s_{0}, a_{0}\right]$
使用prioritized experience replay：可以加速学习；使用一个非均匀的概率 $p_i$ 从一个大小为 $R$ 的回放缓冲中进行采样。在这种采样方式下，一个样本 $i$ 将以概率 $Rpi)^{−1}$ 被采样到因而重要性权重为 $Rpi)^{−1}$ 。

DDPG 与 D4PG

在这里插入图片描述

在这里插入图片描述

见github

关注

专栏目录