DPPO算法(顺便对比PG、TRPO、PPO、PPO2以及A3C算法)

DPPO是分布式版本的PPO算法,解决了离线策略更新问题。文章对比了DPPO与其他强化学习算法,如PG、TRPO、PPO和PPO2,强调了DPPO的并行性和策略更新的稳定性。PPO通过限制策略更新幅度改善PG的敏感性,而DPPO则进一步实现了多线程加速。
摘要由CSDN通过智能技术生成

强化学习(9):TRPO、PPO以及DPPO算法:https://blog.csdn.net/zuzhiang/article/details/103650805
DPPO深度强化学习算法实现思路(分布式多进程加速): https://blog.csdn.net/weixin_43145941/article/details/116764574
[DPPO]:再看我的影分身之术(附代码及代码分析):https://zhuanlan.zhihu.com/p/111346592

PPO
在这里插入图片描述

TRPO
在这里插入图片描述

PPO(Proximal Policy Optimization) 是一种解决 PG 算法中学习率不好确定的问题的算法,因为如果学习率过大,则学出来的策略不易收敛, 反之,如果学习率太小,则会花费较长的时间。PPO 算法利用新策略和旧策略的比例,从而限制了新策略的更新幅度,让 PG 算法对于稍微大一点的

  • 3
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值