DPPO:Distributed Proximal Policy Optimization

DPPO:Distributed Proximal Policy Optimization

分布式近端策略优化,因为就是PPO的分布式实现,整条的架构和A3C差不多,一个主网络,N个子网络,不一样的地方是,A3C的子网络负责采样数据和计算梯度,然后将梯度传回主网络,而DPPO的子网络只是负责采样数据,然后将采样的数据传回主网络进行统一计算。

PPO->DPPO
一般我们将一个算法分布式化会有以下几个步骤:
1.简单实现该算法
2.将算法模块化,各个模块之间通过参数连接
3.将各个模块之间的参数以某种通信方式传递
4.将耗时的模块进行并行化处理
对应到PPO转DPPO的过程:
1.先实现一个有效的PPO算法
2.将PPO算法分成数据采样和策略学习两个独立的模块,之间通过一个buffer参数连接
3.将buffer通过管道或者套接字传递
4.将数据采样模块并行化

这个DPPO是王者荣耀智能体采用的技术方案,但是网上只有论文,没有具体的实现。

要实现DPPO主要要解决两个技术难点:
1.如何快速的在多个计算节点之间进行数据交换,一旦分布式,单机的性能瓶颈就不再是瓶颈,瓶颈转而变成计算节点之间数据交换的效率,如果这个没处理好,就会出现分布式还不如单机的情况。
2.各个节点的计算结果如何聚合,是直接累加?取平均?还是其他?有待实验。

主要实现方案如下:

  1. 主节点将主网络参数同步给多个子节点
  2. 多个子节点分别加载主网络参数同步训练,训练完成后将各自的子网络参数传输回主网络
  3. 主节点将各个子节点的网络参数取平均然后更新主网络,回到1

分布式的优势主要有两点:
1.并行计算,增加计算速度,比如一个100小时的任务,拆成10份,理想情况下就可以在10小时完成。
2.分工计算,合理利用资源,比如一些简单的采样任务可以交给CPU处理,而一些高密集的计算任务可以交给GPU计算。

学习记录–引用自学长的微信朋友圈笔记–学长的总结都很好,想先记录下来以后查看

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值