强化学习之AC、A2C和A3C

最新推荐文章于 2025-03-04 15:39:49 发布

微笑小星

最新推荐文章于 2025-03-04 15:39:49 发布

阅读量1.1w

点赞数 10

分类专栏：强化学习文章标签：人工智能机器学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tianjuewudi/article/details/120092230

版权

阅读本文可参考我以前的文章《强化学习实践教学》https://tianjuewudi.gitee.io/2021/07/16/qiang-hua-xue-xi-shi-jian-jiao-xue/#toc-heading-29，其中的连续动作空间上求解RL章节是本文的基础，其中的DDPG和Actor-Critic除了Target网络外其余都一致。

首先，A2C的全称是Advantage Actor Critic，而A3C是Asynchronous Advantage Actor Critic，A2C源自A3C。

Actor Critic

首先解释一下Actor Critic的概念，Q-learning是一种价值迭代法，而policy gradient是一种策略迭代法，Actor Critic同时使用了这两种方法。

Actor直接负责输出每个Action的概率，有多少个Action就有多少个输出。Critic输出的是动作价值Q。这是两个神经网络。在Policy Gradient中，一个episode的累计Reward就像是一个Critic，决定了Actor的学习方向，使得Actor倾向于学习Critic累计Reward更高的逻辑。因此策略梯度可写作：
$E[\sum_{t=0}^{\infty}\psi_t \nabla_{\theta}log \pi_{\theta}(a_t|s_t)]$
其中这里的π就是actor，ψ就是critic，这是一个广义的框架。

critic有多种形式：

一个轨迹中的Reward相加。
一个轨迹中后面某部分的Reward相加。
相加后的Reward减去一个baseline。
采

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

微笑小星 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。