RL policy gradient 之 A2C, A3C,PPO小总结

最新推荐文章于 2024-06-09 09:43:11 发布

bald

最新推荐文章于 2024-06-09 09:43:11 发布

阅读量2.2k

点赞数

分类专栏： rl 文章标签：神经网络深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Aries_M/article/details/105827886

版权

本文总结了RL中的A2C、A3C和PPO算法，它们属于Actor-Critic方法，结合了value function和policy function。A2C引入advantage，A3C引入异步更新，而PPO则增加了clip操作以稳定训练过程。

摘要由CSDN通过智能技术生成

Policy gradient

Parameterize policy directly
No value function
On policy 训练:
1. Because samples can not be re-used
2. 只能等到回合结束才能更新

A2C, A3C, PPO 都不是纯 policy based 的 RL 方法，准确地说是 Actor-Critic 方法，即，同时用到了 value function 和 policy funtion.

这三种方法之间有什么区别呢？

A2C

这里的数字 2 其实是说有多少个 “A” 的意思, 作为 Actor-Critic 方法的一种，A2C 是在 Actor-Critic 方法的基础上多了一个 advantage :

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
RL policy gradient 之 A2C, A3C,PPO小总结

A2C, A3C, PPO 都不是纯 policy based 的 RL 方法，准确地说是 Actor-Critic 方法，即，同时用到了 value function 和 policy funtion.这三种方法之间有什么区别呢？A2C这里的数字 2 其实是说有多少个 “A” 的意思, 作为 Actor-Critic 方法的一种，A2C 是在 Actor-Critic 方法的基础上多了一个...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。