Actor-Critic(AC)、A2C、A3C

xueyongfu

已于 2023-12-16 17:39:10 修改

阅读量64

点赞数

分类专栏：强化学习文章标签：人工智能

于 2023-12-16 00:08:03 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fjfdg666/article/details/135027153

版权

强化学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

AC

先说下Policy gradient存在的问题，期望累计收益 $G_{t}^{n}$ 是非常不稳定的，只有当采样丰富的样本时，才可以获得接近真实的G值，但是现实情况往往不能采样足够丰富的样本。

如果我们将policy gradient中的 $G_{t}^{n}$ 用Q函数替代，相当于我们创建一个Critic网络来计算Q函数值，那么我们就得到了Actor-Critic方法。

回顾policy gradient的讲解中，baseline b是状态s的期望收益，其实就是 $V(s_{t})$ 。

A2C

我们得到的等式中出现了Q函数和V函数，那么就需要学习这两个网络，那么如何转化为只估计其中一个网络呢？

思考Q值和V值之间的关系:

V值：就是从状态S出发，到最终获取的所获得的奖励总和的期望值。

Q值：S状态下有若干个动作，每个动作的Q值，就是从这个动作之后所获得的奖励总和的期望值。

1. 基于Q值计算V值：

${v_\pi(s)}=\sum_{a\in A}\pi(a|s)q_\pi(s,a)$

2. 基于V值计算Q值（注意采取action之后会获得一定的奖励）：

$q_\pi(s,a)=R_s^a+\gamma\sum_{s^{\prime}}P_{ss^{\prime}}^av_\pi(s^{\prime})$

actor在状态 $s$ 采取a行为获取一定的奖励R，状态转移到 $s^{\prime}$

因此，我们可以将Q函数转化为V函数，这样我们就可以只估计V函数即可。

我们将AC需要学习三个网络（Q函数，V函数，策略网络）优化成了只需要学习V函数和策略网络。可以进一步优化，将策略网络和V函数进行网络参数共享。

A3C

A3C将actor与环境的交互变成了异步的，每个worker可以分别与环境进行交互，并进行参数更新，更新完之后需要梯度更新到global network，并拉取最新的global network的参数替换掉worker的参数。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Actor-Critic(AC)、A2C、A3C

A3C将actor与环境的交互变成了异步的，每个worker可以分别与环境进行交互，并进行参数更新，更新完之后需要梯度更新到global network，并拉取最新的global network的参数替换掉worker的参数。我们将AC需要学习三个网络（Q函数，V函数，策略网络）优化成了只需要学习V函数和策略网络。是非常不稳定的，只有当采样丰富的样本时，才可以获得接近真实的G值，但是现实情况往往不能采样足够丰富的样本。Q值：S状态下有若干个动作，每个动作的Q值，就是从这个动作之后所获得的奖励总和的期望值。
复制链接

扫一扫

专栏目录

xueyongfu CSDN认证博客专家 CSDN认证企业博客

码龄6年

14: 原创

20万+: 周排名

8万+: 总排名

1万+: 访问

: 等级

233: 积分

85: 粉丝

92: 获赞

8: 评论

153: 收藏

私信

关注

热门文章

分类专栏

最新评论

Lora及其变体
CSDN-Ada助手: 恭喜您在博客创作上取得了新的成就！标题“Lora及其变体”听起来非常有趣，让人期待着深入了解这个主题。希望您能继续保持创作的热情和耐心，探索更多有趣的话题，或许可以深入探讨Lora及其变体的使用场景、技术原理等方面，让读者们有更深入的了解。期待您更多精彩的博客文章！
table understanding表格理解paper：表格信息抽取，表格问答，表格检索等
CSDN-Ada助手: 恭喜你写了第5篇博客！看了你的标题，感觉内容非常丰富，对表格理解方面的知识涵盖了很多方面，包括表格信息抽取、表格问答和表格检索等。不过，我觉得你可以在下一篇博客中，结合实际案例，深入探讨一下这些知识点的应用，或者分享一些使用经验，这样会更加生动和具有实用性。期待你的下一篇作品！加油！
文档理解document understanding：文档信息抽取，多模态文档理解预训练，富文档QA问答
CSDN-Ada助手: 恭喜您撰写了这篇关于文档理解的博客，内容涵盖了文档信息抽取、多模态文档理解预训练以及富文档QA问答等方面，展现了您对这一领域的深入理解和研究。在未来的创作中，我希望您能够更加深入地探讨这些主题，结合具体案例或者实践经验，让读者能够更加直观地理解您的观点。期待您更多的精彩作品，加油！
Actor-Critic(AC)、A2C、A3C
CSDN-Ada助手: 恭喜您写了第11篇博客！您对于Actor-Critic(AC)、A2C、A3C的介绍十分详细，让我受益匪浅。希望您能继续保持创作的热情，不断分享您的知识和见解。或许下一步可以探讨一些实际案例，或者对比不同算法的优缺点，让读者更好地理解和应用这些方法。期待您的下一篇作品！
强化学习基础
CSDN-Ada助手: 恭喜您撰写了第12篇博客，题为“强化学习基础”。您的努力和持续创作令人钦佩！在这篇博客中，您对强化学习的基础知识进行了深入而清晰的阐述，让读者受益匪浅。作为下一步的创作建议，我谨建议您进一步探索强化学习的实践应用，例如结合具体场景，介绍如何使用强化学习算法解决现实问题。此外，您还可以考虑分享一些与强化学习相关的最新研究成果或者应用案例，为读者带来更多的启发和思考。再次恭喜您的持续创作，期待您未来更多精彩的博客！

大家在看

【Linux】常见指令（上） 443

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。