DPPO：Distributed Proximal Policy Optimization

lijieling123

已于 2022-05-23 11:55:19 修改

阅读量1.8k

点赞数

分类专栏：强化学习文章标签：机器学习算法

于 2022-05-23 11:34:54 首次发布

本文链接：https://blog.csdn.net/lijieling123/article/details/124923945

版权

强化学习专栏收录该内容

7 篇文章 2 订阅

订阅专栏

DPPO：Distributed Proximal Policy Optimization

分布式近端策略优化，因为就是PPO的分布式实现，整条的架构和A3C差不多，一个主网络，N个子网络，不一样的地方是，A3C的子网络负责采样数据和计算梯度，然后将梯度传回主网络，而DPPO的子网络只是负责采样数据，然后将采样的数据传回主网络进行统一计算。

PPO->DPPO
一般我们将一个算法分布式化会有以下几个步骤：
1.简单实现该算法
2.将算法模块化，各个模块之间通过参数连接
3.将各个模块之间的参数以某种通信方式传递
4.将耗时的模块进行并行化处理
对应到PPO转DPPO的过程：
1.先实现一个有效的PPO算法
2.将PPO算法分成数据采样和策略学习两个独立的模块，之间通过一个buffer参数连接
3.将buffer通过管道或者套接字传递
4.将数据采样模块并行化

这个DPPO是王者荣耀智能体采用的技术方案，但是网上只有论文，没有具体的实现。

要实现DPPO主要要解决两个技术难点：
1.如何快速的在多个计算节点之间进行数据交换，一旦分布式，单机的性能瓶颈就不再是瓶颈，瓶颈转而变成计算节点之间数据交换的效率，如果这个没处理好，就会出现分布式还不如单机的情况。
2.各个节点的计算结果如何聚合，是直接累加？取平均？还是其他？有待实验。

主要实现方案如下：