【强化学习】Actor Critic原理

最新推荐文章于 2024-04-13 14:00:00 发布

小柴柴是也

最新推荐文章于 2024-04-13 14:00:00 发布

阅读量500

点赞数

分类专栏：强化学习 Python 文章标签：强化学习 python 算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42115293/article/details/117113197

版权

强化学习同时被 2 个专栏收录

13 篇文章 4 订阅

订阅专栏

13 篇文章 0 订阅

订阅专栏

PG算法是一种只基于policy的一种方法，存在的问题就是该算法需要完整的状态序列，且单独对策略函数进行迭代更新，不太容易收敛。
Actor-critic方法呢是一种将策略(Policy Based)和价值(Value Based)相结合的方法。下面继续来理一下AC方法的思路！

Actor-Critic算法包括两部分，Actor网络使用PG里的策略函数，负责生成动作，和环境交互，Critic网络使用价值函数，负责评估Actor的表现，并指导Actor下一阶段的动作。
PG中我们用的是蒙特卡罗法来计算每一步的价值部分替代Critic的功能，现在我们在AC中用类似于DQN中的价值函数来替代蒙特卡罗法。
在这里插入图片描述

汇总来说，就是Critic通过Q网络计算状态的最优价值vt, 而Actor利用vt这个最优价值迭代更新策略函数的参数θ,进而选择动作，并得到反馈和新的状态，Critic使用反馈和新的状态更新Q网络参数w, 在后面Critic会使用新的网络参数w来帮Actor计算状态的最优价值vt。

AC算法的主要缺点在于：无论怎么调参，算法都很难收敛。故后面引入A3C就是为了解决这个问题
重点参考下一篇：AC的注释版本

小柴柴是也

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【强化学习】Actor Critic原理

PG算法是一种只基于policy的一种方法，存在的问题就是该算法需要完整的状态序列，且单独对策略函数进行迭代更新，不太容易收敛。Actor-critic方法呢是一种将策略(Policy Based)和价值(Value Based)相结合的方法。下面继续来理一下AC方法的思路！Actor-Critic算法包括两部分，Actor网络使用PG里的策略函数，负责生成动作，和环境交互，Critic网络使用价值函数，负责评估Actor的表现，并指导Actor下一阶段的动作。PG中我们用的是蒙特卡罗法来计算每一步
复制链接

扫一扫

专栏目录

小柴柴是也 CSDN认证博客专家 CSDN认证企业博客

码龄6年

42: 原创

9万+: 周排名

203万+: 总排名

8万+: 访问

: 等级

668: 积分

273: 粉丝

83: 获赞

27: 评论

445: 收藏

私信

关注

热门文章

分类专栏

MADDPG 1篇
强化学习 13篇
latex 3篇
写论文 3篇
Python 13篇
bug 1篇
KKT条件 1篇
深度学习 1篇
编程语言入门 9篇
光纤通信 4篇
博弈论 1篇
卫星通信 1篇
Java 9篇
尚硅谷 7篇
word操作技巧
matlab 3篇
小程序编译 1篇
封装 1篇
多态 1篇

最新评论

MADDPG中环境怎么配置，multiagent包解决
一菜鸡: 为什么我在工程目录下的multiagent-particle-envs-master修改代码没用，得去conda虚拟环境中修改才有用？怎么解决呢？
MADDPG中环境怎么配置，multiagent包解决
小柴柴是也: 你的显卡得满足条件才行
MADDPG中环境怎么配置，multiagent包解决
啦啦啦小新手: 怎么用gpu训练呢，把网络放到cuda上还是报错，
2020-08-21 光纤通信第四章知识点整理
WWW_jpg: 谢谢！写的很清楚！如果能再加一个例子就更好了。
【强化学习】A3C原理
weixin_44824820: 博主好，请问我用a3c在训练时效果很好，但测试时效果则达不到，而且有一些差距，lr调的也不是很低，可能是啥原因呢

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。