强化学习与多智能体强化学习（六）——Actor-Critic

最新推荐文章于 2024-08-14 15:20:01 发布

酸酸甜甜我最爱

最新推荐文章于 2024-08-14 15:20:01 发布

阅读量202

点赞数

分类专栏：基础理论学习文章标签：学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fearless_sun/article/details/135061868

版权

基础理论学习专栏收录该内容

20 篇文章 2 订阅

订阅专栏

Actor-Critic思想：

实做的缺点是需要estimate两个network，一个Q，一个V，估测不准的风险变为两倍。

Advantage Actor-Critic(A2C)思想：

Q function的意思就是在状态st时采取动作at得到的reward和跳到下一状态st+1的期望，为了考虑到随机性，所以加上期望。但如果把期望拿掉，直接拿r和V替换Q也是可以的。这样的好处是你只需要 estimate一个network；坏处是你引入了一个随机的东西，r是有随机性的，但随机性会小于G，所以相对比较合理。

整体的流程为：初始的和环境做互动，用TD或MC学习V函数，再用公式去update得到新的，去和环境做互动，循环往复。

实施的时候会用到的tips：

要estimate的网络有两个，一个V，一个actor。两个网络共享某些层。
需要探索的机制。输出有限制，希望不同的action被采用的机率平均一些。

Asynchronous Advantage Actor-Critic(A3C) 思想：

A3C的精神就是同时开很多个worker，就像影分身，这些影分身会把所有的经验集合在一起。

一开始有一个global的network，开很多个worker，每一个worker可能就用一个CPU去跑，每一个worker工作前会把global network的参数copy过来，接下来就会和环境去做互动，那每一个跟环境互动的时候会收集到比较多样的data，互动完之后得到gradient，拿gradient去update global network的参数。要注意的是：所以的actor都是平行跑的，每一个actor各做各的，做完就把参数传回去。

Pathwise Derivative Policy Gradient

一般的Actor-Critic中actor只知道现在的行为是好还是不好，但是这个方法会直接告诉actor采取什么行为才是好的，critic会引导actor做出action。

从Q-Learning的观点来看，之前Q-Learning考虑continuous问题时并不容易，可以用actor来解。

整体思想：

怎么在Q- Learning算法上做更改？

酸酸甜甜我最爱

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习与多智能体强化学习（六）——Actor-Critic

AC知识点
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。