分布式强化学习之D4PG

最新推荐文章于 2024-09-01 21:41:02 发布

微笑小星

最新推荐文章于 2024-09-01 21:41:02 发布

阅读量3.2k

点赞数 5

分类专栏：强化学习文章标签：强化学习

本文链接：https://blog.csdn.net/tianjuewudi/article/details/120768767

版权

强化学习专栏收录该内容

44 篇文章

订阅专栏

D4PG全称Distributed Distributional Deterministic Policy Gradient，是总所周知的DDPG的分布式版本。因此学习D4PG之前，需要了解DDPG。

首先DDPG是DQN在连续空间的版本，DQN只能处理离散动作空间的问题，对于连续动作空间是无法处理的，因此我们引入了DDPG。DDPG是actor-critic的结构，并且借鉴了DQN的技巧，也就是目标网络和经验回放。因此DDPG有四个网络，一个actor，一个Target-actor，一个critic，一个Target-critic。对于Critic的更新方法和DQN一样，而Actor的更新就是最大化Critic的输出，也就是得到最高的评价。DDPG和DQN具体细节可以参考我以前的文章：强化学习实践教学

D4PG将经验收集的Actor和策略学习的Learner分开，使用多个并行的Actor收集数据，并分享一个大的经验数据缓存区，发送给learner进行学习，经验使用N步奖励的方法进行处理，也可以使用优先级经验复用，给每个经验加上一个初始优先级。

critic的输出是一个分布，这也就是distributional的概念。

在这里插入图片描述

D4PG的改进使得我们可以运用上百台甚至更多的机器资源，这样就能够采样更多用于训练的数据，比DPPO更好的地方在于Learner不需要等待Actor计算梯度，真正实现了样本采集和训练过程的分离，所以，D4PG可以用于更复杂的连续动作控制领域。缺点在于Actor和Learner的分离可能导致学习到的策略和正在执行的策略产生差距，因此在一个不是很好的策略下采集到的样本也不好，D4PG没有解决两者的平衡问题。